- CodeT5+: 用于代码理解和生成的开源大型语言模型
提出了一种名为 CodeT5 + 的编译器 - 解码器语言模型,具有灵活的组件模块和多样化的预训练任务,能够在不同的代码相关基准测试中取得最先进的结果,特别是在针对人类评估的代码生成任务中。
- ACL如何进行字符级别的编码器模型
本研究旨在为最近提出的在字符级别输出上下文表示的语言理解模型建立基准,探讨了不同架构和不同预训练目标对最终模型性能的相对贡献,发现字符级别的最佳性能超过了基于标记的模型,在多语言语言表示方面具有广泛应用前景,但最佳的训练方法仍取决于标记器的 - 对话摘要中序列长度的重点研究
该研究探讨了对话摘要长度的影响因素,分析了摘要生成模型输出与人类参考文本的长度差异,并提出了基于长度感知的摘要生成模型,对 DialogSum 和 SAMSum 数据集进行实验,取得了显著的性能提升。
- 基于质心预训练的多文档摘要
本文提出了一种简单的预训练目标:选择每个文档簇的基于 ROUGE 的中心点作为摘要,以用于多文件摘要的预训练。通过多个 MDS 数据集的零 - shot 和完全监督实验,我们证明了我们的 Centrum 模型比最先进的模型更好或具有可比性。
- 零 - shot 泛化哪种语言模型架构和预训练目标最佳?
通过大规模模型比较和实验验证,本文发现预训练的 Transformer 模型在自然语言处理任务的零样本泛化能力中,部分结构和预训练目标优于其他模型,这为模型架构和目标选择提供了指导。同时,本文研究了预训练模型跨结构和目标的迁移,并提供源代码 - EMNLP简单却令人沮丧的预训练替代方法:掩码语言建模
本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品,证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能,并且使用较小的模型进行验证。
- ACL通过建模句子级和语篇级连贯性进行长文本生成
该论文提出了一种基于预训练的长文本生成模型,通过预测句子间语义相似度和区分正常和洗牌句序的两个预训练目标来学习句子和语篇级别的表示,从而能够生成比现有技术更加连贯的文本。
- ICML语言模型的预训练和微调目标的对齐
本文研究了语言模型训练中显式地将预训练目标与微调目标对齐,发现这种目标对齐能够显著提高微调任务的性能,并降低微调所需的最小样本量,从而使模型更加精简高效。作者称其为 Few Example learning,能够为实时应用和减少人工标注成本 - 探究不同 NLP 任务对机器关于虚词理解方面的学习
本文通过构造一组挑战任务,测试了句子编码器中对功能词语的理解能力,结果显示,在句子编码器的预训练中,语言建模性能表现最佳,支持其广泛用于现有的 NLP 模型预训练,而 CCG 超标记和自然语言推理的预训练表现相当。
- ACL大规模多语种对抗性语音识别
本文介绍了对多达 100 种语言进行训练的多语言端到端语音识别模型的适应性,研究表明了目标语言和预训练语言在语音学、语音学、语言家族、地理位置和正字法等方面的相对重要性,并通过上下文无关的音素目标和语言对抗性分类目标提高了语言无关的编码器表 - 调整还是不调整?将预训练表征适应于不同任务
研究了预训练模型在给定目标任务中的最佳适应方式,着重探讨了 fine-tuning 和 feature extraction 两种常见的适应形式的相对性能,并提出了一组适用于 NLP 应用者的模型调整指南。
- ACL深度循环神经网络编码软层级句法
本研究介绍一组实验,以证明深度递归神经网络(RNN)可以从高度多变的监督中学习到捕捉软层级句法概念的内部表征。我们考虑了四个句法任务,每个词的词性以及出现在其上方的第一(parent)、第二(grandparent),第三层级(great-