频率解释了大型语言模型的大小、训练数据量和意外性与阅读时间的逆相关关系
本文研究了基于 Transformer 的语言模型中,各种训练数据和不同容量的模型对于预测人类阅读时间的作用,并发现多数具有当代模型能力的变体,使用约 20 亿个训练标记后,所给出的 surprisal estimates 提供了最佳适合度,而较大的预先训练语言模型的较差适合度主要归咎于大量的训练数据,而 transformer-based 语言模型的某种程度的模型容量对于模型要捕捉类似于人类的期望是必要的。
Apr, 2023
通过对现代神经结构的分析,提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell(2018 年)的观点,证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络,变形器和预训练模型。
Sep, 2020
本研究分析了低频词对神经信息检索模型的性能和稳健性的影响,通过对三个不同的最近神经信息检索模型进行控制实验,发现采用 FastText 对于低频词查询可以带来明显的性能提升。
Apr, 2019
通过对二十多种不同的计算模型测试发现,尽管这些模型可能包含不同的结构、方法和数据集,但其前向单词期望和人类阅读行为之间的关系是很直接的,其中深度 Transformer 模型和 n-gram 模型在眼动数据方面表现优异,而在句法知识和预测能力之间不存在重大关系。
Jun, 2020
本研究旨在探究数据规模和频率范围对分布语义模型的影响。比较了几种代表性模型在不同规模的数据和各种不同频率的测试项下的性能表现。结果表明,当数据规模较小时,基于神经网络的模型表现不佳,而在各种规模和频率范围的数据下,可靠性最高的模型是倒置分解模型。
Sep, 2016
通过概率校准的概念,本文首次关注人类阅读模拟的概率分布,提出使用温度调整的意外度作为预测人类阅读时间的指标,通过三个数据集的实验证明这种意外度可以显著提高阅读时间的预测,在本文的设置中,将温度设置为大约 2.5 可使对数似然度增加 89%。同时,本文还提出了一个校准度量指标来量化可能的人类偏好偏差,并进行了进一步分析以提供相关洞察。
Nov, 2023
本文提出一种基于词频感知的令牌级对比学习方法,旨在从表示学习角度解决现代神经机器翻译系统中低频词预测的挑战。经实验证明,所提出的方法不仅可以显著提高翻译质量,还可以增加词汇多样性并优化词表示空间。与相关的自适应训练策略相比,该方法在不牺牲精度的前提下提高了低频词汇量的召回率稳健性。
Dec, 2021
本文研究使用基于 Transformer 的语言模型,比较了不同模型尺寸与训练数据规模对于预测功能性磁共振成像记录下的脑活动响应的影响。结果显示,当模型或数据规模增大时,在音频与语言预测方面均能获得显著性提升,这为在理解大脑语言处理机制和实际的解码应用上提供了改善的可能。
May, 2023