推进语言建模的最新研究成果
研究表明,Transformer-XL 语言模型在预测超出其训练期的未来话语时,性能会随着时间的推移而逐渐降低。基于此,提出了动态语言建模的思路,并通过不断更新知识来缓解性能退化问题。因此,应重新思考我们目前培训和评估语言模型的方法,并发展出适应我们日益变化和非稳定的世界的自适应语言模型。
Feb, 2021
大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型,并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench,用于动态生成最新的现实世界预测性预测的评估基准。
May, 2024
该文章介绍了近期在自然语言处理中提高模型性能所用的三种方法:更加复杂的语言模型、更大的语料库和并行计算,总结了一些最近两年新增的大型预训练语言模型,并探讨了新架构与资源所带来的影响,以此为起点提供了一些方便可复制的研究结果。
Jan, 2020
预训练语言模型 (PLMs) 的可重用性常受到其泛化问题的限制,该问题表现为在评估与训练数据集不同的示例时,性能显著下降,被称为离群 / 未知示例。本文提出了一种名为 Mask-tuning 的训练方法,通过将掩码语言建模 (MLM) 训练目标整合到微调过程中,提高了 PLMs 的泛化能力。全面的实验证明,Mask-tuning 超越了当前最先进的技术,并增强了 PLMs 在离群数据集上的泛化能力,同时提高了它们在分布数据集上的性能。研究结果表明,Mask-tuning 改善了 PLMs 在未知数据上的可重用性,使其在实际应用中更加实用和有效。
Jul, 2023
使用大规模生成模型和较小的编码器模型,语言模型可以帮助软件开发人员提高生产力,包括代码生成、代码补全、代码搜索等任务,并且可以通过新的基准数据集 GenCodeSearchNet (GeCS) 来评估语言模型对编程语言理解的泛化能力。
Nov, 2023
我们提出了一种基于无损数据压缩的评估方法,用于测试模型训练截断后的预测能力广义化情况。我们收集了从 2017 年到 2023 年的 83 个月的全面测试数据,并根据模型的训练数据截断将数据分为训练和测试期。我们通过测试期的压缩性能作为对未见数据广义化的度量,以及训练期和测试期之间的性能差距作为鲁棒性的度量来进行测量。实验测试了 14 种具有各种规模的代表性大型语言模型,包括维基百科、新闻文章、代码、arXiv 论文和多模态数据。我们发现许多模型的压缩率在其截断日期后显著降低,但 Mistral 和 Llama-2 等模型在性能和鲁棒性之间取得了良好的平衡。结果还表明,模型在新闻和代码数据上很难广义化,但在 arXiv 论文上表现特别好。我们还发现上下文大小和标记化实现对整体压缩性能有很大影响。
Feb, 2024
本论文提出了一种基于词汇层面 masking 的后训练策略,以此来解决大规模神经语言模型在时间通用性方面存在的问题,实验证明该方法在两个预训练语言模型、两种不同分类任务和四个基准数据集上效果优于现有的连续训练策略。
Oct, 2022
本研究旨在构建一个与人类价值观相一致的通用文本助手,通过简单的基线技术和评估,我们发现适度干预的效益随着模型大小的增加而增长,并且不会影响大模型的性能;二分类和模仿学习亦具善意,但此外,排序偏好建模方法在对齐训练任务中表现更佳且尺度更合适;最终我们研究通过 “偏好模型预训练” 阶段达到在人类喜好上微调时的样本效率提升。
Dec, 2021
本论文通过文献综述提出了一个分类法对 NLP 中的泛化研究进行了表征和理解,并对超过 400 篇论文进行了分类,提出了评估标准以及对未来研究方向的建议,并发布了一个动态可探索的结果页面,以期将最先进的泛化测试成为 NLP 领域的新常态。
Oct, 2022