频率解释了大型语言模型的大小、训练数据量和意外性与阅读时间的逆相关关系

ACLFeb, 2024

频率解释了大型语言模型的大小、训练数据量和意外性与阅读时间的逆相关关系

Frequency Explains the Inverse Correlation of Large Language Models' Size, Training Data Amount, and Surprisal's Fit to Reading Times

PDF

Byung-Doh Oh, Shisen Yue, William Schuler

TL;DR大型、数据庞大的基于 Transformer 的语言模型对于罕见单词的预测更加准确，从而导致它们的意外度估计与人类的阅读时间相关性降低。

Abstract

Recent studies have shown that as transformer-based language models become larger and are trained on very large amounts of data, the fit of their surprisal estimates to naturalistic human reading times degrades. The current work presents a series of analyses showing that →

transformer-based language models fit to reading times word frequency model size training dynamics

发现论文，激发创造

基于 Transformer 的语言模型惊奇度在使用约 20 亿训练令牌时最能预测人类阅读时间

本文研究了基于 Transformer 的语言模型中，各种训练数据和不同容量的模型对于预测人类阅读时间的作用，并发现多数具有当代模型能力的变体，使用约 20 亿个训练标记后，所给出的 surprisal estimates 提供了最佳适合度，而较大的预先训练语言模型的较差适合度主要归咎于大量的训练数据，而 transformer-based 语言模型的某种程度的模型容量对于模型要捕捉类似于人类的期望是必要的。

Apr, 2023

语言模型性能度量在心理语言学建模中的应用：人们阅读行为的概率预测

通过对现代神经结构的分析，提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell（2018 年）的观点，证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络，变形器和预训练模型。

Sep, 2020

语言模型比经验可预测性更好地解释单词阅读时间

本文研究了语言模型在理解阅读中的应用，发现概率语言模型在得知前文后更有深入的语法和语义解释，从多个层面上与阅读时间都有非常明显的关联。

Feb, 2022

低频项对神经信息检索模型的影响

本研究分析了低频词对神经信息检索模型的性能和稳健性的影响，通过对三个不同的最近神经信息检索模型进行控制实验，发现采用 FastText 对于低频词查询可以带来明显的性能提升。

Apr, 2019

神经语言模型对人类实时理解行为的预测能力

通过对二十多种不同的计算模型测试发现，尽管这些模型可能包含不同的结构、方法和数据集，但其前向单词期望和人类阅读行为之间的关系是很直接的，其中深度 Transformer 模型和 n-gram 模型在眼动数据方面表现优异，而在句法知识和预测能力之间不存在重大关系。

Jun, 2020

数据规模和频率范围对分布语义模型的影响

本研究旨在探究数据规模和频率范围对分布语义模型的影响。比较了几种代表性模型在不同规模的数据和各种不同频率的测试项下的性能表现。结果表明，当数据规模较小时，基于神经网络的模型表现不佳，而在各种规模和频率范围的数据下，可靠性最高的模型是倒置分解模型。

Sep, 2016

通过温度调整的惊奇度提高对人类阅读时间的拟合

通过概率校准的概念，本文首次关注人类阅读模拟的概率分布，提出使用温度调整的意外度作为预测人类阅读时间的指标，通过三个数据集的实验证明这种意外度可以显著提高阅读时间的预测，在本文的设置中，将温度设置为大约 2.5 可使对数似然度增加 89％。同时，本文还提出了一个校准度量指标来量化可能的人类偏好偏差，并进行了进一步分析以提供相关洞察。

Nov, 2023

面向频率的对比学习在神经机器翻译中的应用

本文提出一种基于词频感知的令牌级对比学习方法，旨在从表示学习角度解决现代神经机器翻译系统中低频词预测的挑战。经实验证明，所提出的方法不仅可以显著提高翻译质量，还可以增加词汇多样性并优化词表示空间。与相关的自适应训练策略相比，该方法在不牺牲精度的前提下提高了低频词汇量的召回率稳健性。

Dec, 2021

fMRI 中语言编码模型的尺度定律

本文研究使用基于 Transformer 的语言模型，比较了不同模型尺寸与训练数据规模对于预测功能性磁共振成像记录下的脑活动响应的影响。结果显示，当模型或数据规模增大时，在音频与语言预测方面均能获得显著性提升，这为在理解大脑语言处理机制和实际的解码应用上提供了改善的可能。

May, 2023

有些词比其他词更有价值吗？

该研究提出了两种新的内部评估方法，旨在全面评估语言模型的性能。他们发现，传统的评价方法偏向于高频词汇，而不能全面地评价模型的性能。

Oct, 2020