有些词比其他词更有价值吗?
我们提出了一个替代方法来量化语言模型学习自然语言的程度:我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向,提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向,但与经验性趋势相比,更接近所提出的理论分布(当存在时)。此外,对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子,使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系;LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。
May, 2021
通过对现代神经结构的分析,提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell(2018 年)的观点,证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络,变形器和预训练模型。
Sep, 2020
自然语言生成中方法名称预测面临困难,为了解决这些问题,我们提出了一种新的度量标准,能够计算精确度和召回率,并在与人类判断相比获得良好的性能。
May, 2024
本文研究神经语言模型的 tokenization 对模型性能评估的作用,并提出用边缘似然进行评估。在使用采样的不同估算器比较后,发现边缘困惑度可以更好地反应模型性能,特别是在领域外数据中能表现出更好的鲁棒性。此外,通过测量 tokeniser 信息熵,结果还显示,边缘困惑度与 tokeniser 不确定性之间存在联系。最后,本文讨论了研究结果对语言模型训练和评估的一些影响。
Sep, 2021
该论文提出了一种新的基准语料库,用于衡量统计语言建模的进展,探讨了多种语言模型的性能表现,通过使用长短时记忆模型,降低模型复杂度来改善模型性能,实现了对语言模型的快速评估,并提出了相应的语言模型技巧,解决了语言建模中存在的困难。
Dec, 2013
本文探讨了自然语言处理中,现有的语言生成系统的自动评估指标的局限性,提出了一些应该受到更多关注的失败案例,鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。
Oct, 2020
本文提出了解释性机器翻译评估指标的关键属性和目标并综述了最近的方法,通过实验发现当前的对抗性 NLP 技术不能自动识别高质量黑盒评估指标的局限性,提出了未来解释性评估指标的发展方向。
Mar, 2022
使用大型语言模型(LLMs)进行多项选择题(MCQs)的实证研究表明,概率评估方法在生成预测方面存在内在局限性,与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关,结果强调了 LLMs 评估方法的有效性和未来研究的启示。
Feb, 2024