探究大型语言模型中的意外性在语音合成韵律中的作用
通过对 11 种不同语言进行研究,我们发现惊奇理论与阅读时间之间存在跨语言的联系,验证了三个预测:惊奇度是否预测阅读时间、预期惊奇度是否预测阅读时间、以及惊奇度与阅读时间之间的联系是否是线性的,从而在更多语言上提供了信息论与递增语言处理之间至今最强大的连接。
Jul, 2023
通过整合语言用户的认知能力信息,重新评估了从多种语言模型中估计出的意外性和熵的预测能力,以读时数据作为对处理工作的度量,研究发现大多数情况下,整合认知能力提高了意外性和熵对读时的预测能力,并且研究结果表明分析的语言模型模拟了具有较低语言智力的读者,对具有高语言智力的目标群体的预测估计较不准确。
Jun, 2024
本文提出了一种利用 surprisal 在软件库中检测异常事件的新方法。通过对 5000 个最热门的 GitHub 软件库的问题和拉请取内容进行分析并生成推理统计数据,分析这些 surprising events 并确定它们在软件库中的重要性和可能对开发者造成的挑战。
Apr, 2022
通过对现代神经结构的分析,提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell(2018 年)的观点,证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络,变形器和预训练模型。
Sep, 2020
基于 LLMs 的预测基于子词标记而不是词素分解,我们通过比较使用拼写、词素和 BPE 标记的惊异估计与阅读时间数据来仔细测试这一重要假设,我们的结果重现了以前的研究发现并提供了证据,表明使用 BPE 标记的预测相对于词法和拼写分割并没有出现问题,但经过更详细的分析发现依赖于 BPE 标记可能存在潜在问题,同时也提供了相关研究的有希望结果,并提出了一种评估词素预测的新方法。
Oct, 2023
本文研究词语意外性对神经测量的预测能力 ——N400,通过使用循环神经网络计算先前的神经语言学研究的刺激的意外性来进行实验。结果发现,在许多情况下,可以利用意外性来预测 N400 的幅度,并且无法预测的情况提供了洞察神经认知过程的有价值的见解。
Oct, 2020
本文研究了基于 Transformer 的语言模型中,各种训练数据和不同容量的模型对于预测人类阅读时间的作用,并发现多数具有当代模型能力的变体,使用约 20 亿个训练标记后,所给出的 surprisal estimates 提供了最佳适合度,而较大的预先训练语言模型的较差适合度主要归咎于大量的训练数据,而 transformer-based 语言模型的某种程度的模型容量对于模型要捕捉类似于人类的期望是必要的。
Apr, 2023
通过概率校准的概念,本文首次关注人类阅读模拟的概率分布,提出使用温度调整的意外度作为预测人类阅读时间的指标,通过三个数据集的实验证明这种意外度可以显著提高阅读时间的预测,在本文的设置中,将温度设置为大约 2.5 可使对数似然度增加 89%。同时,本文还提出了一个校准度量指标来量化可能的人类偏好偏差,并进行了进一步分析以提供相关洞察。
Nov, 2023
本篇论文通过在三种语言模型(BERT,RoBERTa 和 XLNet)的中间层使用高斯模型进行密度估计,评估了我们的方法。结果表明,语言模型使用不同的机制来检测不同类型的语言异常,语义异常和常识异常在 RoBERTa 模型上没有在任何中间层中表现出异常惊异。
May, 2021
研究发现,人类认知塑造了语言的演变和使用,600 种语言的语料库证实了超出和内部有惊讶 - 持续时间权衡的存在,结果是在不同语言中,更少惊讶的音位生成速度更快,反之亦然,并且确认了 319 种语言中更惊讶的音位平均更长。
Sep, 2021