尊龙凯时娱乐宋大为教授团队近期在大规模预训练语言模型的领域适配、知识蒸馏🪯、模型压缩以及下游任务应用(例如情感分析、语义匹配🤼♀️、文本生成等)方面,取得一系列研究新进展。2022年9月25日🧑🏽💻,团队的学术论文荣获自然语言处理国际会议NLPCC2022(CCF-C类)最佳论文奖(Best Paper Award)。10月6日,自然语言处理领域顶会EMNLP 2022放榜🦡,宋大为教授团队表现卓越🦹🏻,共有4篇高质量主会长文论文被接收。
NLPCC(Natural Language Processing and Chinese Computing)是中国计算机学会主办的自然语言处理(NLP)和中文计算(CC)领域的高水平国际会议🔖。NLPCC 2022于2022年9月22日至9月25日在桂林举办🔥,宋大为教授团队学生杨艺、张辰与香港中文大学(深圳)合作的论文“Doge Tickets: Uncovering Domain-general Language Models by Playing Lottery Tickets”被评选为最佳论文。
EMNLP(Conference on Empirical Methods in Natural Language Processing)是自然语言处理领域的顶级国际会议,由国际计算语言学会(ACL)主办,Google Scholar计算语言学刊物指标中排名第二,是CCF-B类推荐会议(清华大学A类会议)👩👧👦🍰。EMNLP 2022将于2022年12月7日至12月11日在阿布扎比(Abu Dhabi)以在线和离线的混合模式举行🌉。本次会议中🐺,宋大为教授团队学生张辰、张寒青🫶🏼、马放、杨艺所完成的4篇论文被接收为主会长文。
下面对录用论文的研究内容和方法进行简单的介绍⬇️:
论文1: Doge Tickets: Uncovering Domain-general Language Models by Playing Lottery Tickets
录用会议:NLPCC 2022 (Best Paper Award)
作者:杨艺,张辰,王本友👁🗨,宋大为
链接:https://arxiv.org/abs/2207.09638
简介:预训练语言模型在NLP的下游任务上都取得很好的效果,但在领域泛化任务中🥑,预训练模型中关键部分的参数表现为domain-specific🧘♀️👙,而其他参数表现为domain-general🧯。受此现象启发🧏🏼♀️,我们提出domain-general 分数来识别预训练模型中的domain-general参数(称为doge tickets),通过将参数与方差关联来描述参数的域不变性🥷🏻,进一步来获得domain-general的预训练模型👨❤️👨。实验结果表明,doge tickets具有更强的领域泛化能力。我们也证明了domain-general参数的存在及doge ticket的性能一致性。
论文2: Making Pretrained Language Models Good Long-tailed Learners
录用会议🕐:EMNLP 2022 main conference
作者📋♻:张辰,任磊,王金刚🤬,武威,宋大为
链接🪮🧑🏭:https://arxiv.org/abs/2205.05461
简介:Prompt tuning有效地利用预先训练的知识使其在小样本分类中具有很强的性能。受此现象启发我们认为Prompt tuning也适用于长尾分类任务🔏。因为尾部类别属于小样本😆。实验结果表明,Prompt tuning至少能使预训练语言模型成为良好的长尾学习者。我们通过逐步缩小Prompt tuning和fine-tune之间的差距来深入分析Prompt tuning可以在长尾分类中取得良好的性能的原因。分析发现👩🏿🏫,分类器结构和参数化是使Prompt tuning成为好的长尾学习者的关键。
论文3: XPrompt: Exploring the Extreme of Prompt Tuning
录用会议:EMNLP 2022 main conference
作者🤛:马放,张辰,任磊,王金刚🔴,王奇凡,武威,权小军,宋大为
链接🐭:https://arxiv.org/abs/2210.04457
简介:随着预训练模型规模的增加,prompt tuning范式已经逐渐达到全模型fine tune的性能水平,但对于中小规模的模型🥷🏻,两者之间仍然存在较大的性能差距🙋🏼♀️。在特定任务上,并非所有prompt tokens都对目标任务有同等贡献,其中某些甚至可能带来负面影响👨🏽🎓。因此🚼,结合彩票假设的思想,我们提出一种层级结构化剪枝的方法(XPrompt)来缩小性能差距,通过分层结构化剪枝消除不同粒度级别的negative prompt🏉,从而生成参数效率更高的prompt。大规模实验结果表明🕎,XPrompt能够在较小的模型规模上缩小性能差距。
论文4: Sparse Teachers Can Be Dense with Knowledge
录用会议🌎:EMNLP 2022 main conference
作者:杨艺🍿💆🏿♀️,张辰,宋大为
链接:https://arxiv.org/abs/2210.03923
简介:在模型蒸馏的研究中发现🏄🏿,知识型教师模型不仅需要知识的表达能力,还应具备对学生的友好性。我们发现教师包含的某些知识具有很强的表达能力但是对学生不友好👮🏻♀️↪️,使得整体知识方面受到限制。为了消除对学生不友好的参数🤏🏼🦒,我们基于教师模型参数的知识分数对教师进行稀疏化2️⃣。知识分数本质上是参数表达能力和学生友好度分数的插值。实验结果表明,稀疏的教师模型可以拥有丰富的知识并能使学生模型表现的更加出色☀️💥。
论文5: DisCup: Discriminator Cooperative Unlikelihood Prompt Tuning for Controllable Text Generation
录用会议:EMNLP 2022 main conference
作者🦹🏽♀️:张寒青,宋大为
简介:大规模预训练模型能够生成高质量文本🏆,但却面临着生成内容属性不可控等问题🦹🏼♀️。为此📨,提出了一种判别器协同的非似然prompt tuning方法,其通过结合判别器的属性知识来优化控制prompt🍇,以引导语言模型生成特定属性的文本。实验结果表明☃️⏮,该方法仅依靠10个左右的控制prompt就能够取得较好地控制性能,并保证高效、高质量的文本生成效果。