问题跟踪系统中的惊喜值是否具有可操作性？

Apr, 2022

问题跟踪系统中的惊喜值是否具有可操作性？

Is Surprisal in Issue Trackers Actionable?

James Caddy, Markus Wagner, Christoph Treude, Earl T. Barr, Miltiadis Allamanis

TL;DR本文提出了一种利用 surprisal 在软件库中检测异常事件的新方法。通过对 5000 个最热门的 GitHub 软件库的问题和拉请取内容进行分析并生成推理统计数据，分析这些 surprising events 并确定它们在软件库中的重要性和可能对开发者造成的挑战。

Abstract

Background. From information theory, surprisal is a measurement of how unexpected an event is. Statistical language models provide a probabilistic approximation of natural languages, and because →

surprisal software repositories unusual event detection language model probabilistic

发现论文，激发创造

探究大型语言模型中的意外性在语音合成韵律中的作用

本文研究使用词汇惊奇度作为特征，以帮助语音合成韵律。研究通过实验发现，惊奇度和词重要性有适度关联，但使用惊奇度值来调整韵律模型的效果有限。

Jun, 2023

在 11 种语言中测试惊奇理论的预测

通过对 11 种不同语言进行研究，我们发现惊奇理论与阅读时间之间存在跨语言的联系，验证了三个预测：惊奇度是否预测阅读时间、预期惊奇度是否预测阅读时间、以及惊奇度与阅读时间之间的联系是否是线性的，从而在更多语言上提供了信息论与递增语言处理之间至今最强大的连接。

Jul, 2023

人类对惊喜的知觉：用户研究

本研究研究了人类和算法在评估事实中各自对惊奇的评估，在考察中发现了计算模型可以被用于人工诱导惊奇。

Jul, 2018

野外环境中的惊奇度量

本文首次证明了，如何使用根植于认知科学和神经科学的惊奇计算模型，结合最先进的机器学习生成模型，来检测复杂动态环境下（如道路交通）人类行为中令人惊奇的行为。这种模型可以支持交通冲突识别、道路用户响应时间建模以及驾驶员行为评估，同时也提出了量化惊奇的新方法，并在自然驾驶场景下证明了优越性。通过学习生成模型建模惊奇行为，这一概念也可以推广到任何动态的现实环境中。

May, 2023

意外度能如何解释在不同实验条件下的 N400 振幅？

本文研究词语意外性对神经测量的预测能力 ——N400，通过使用循环神经网络计算先前的神经语言学研究的刺激的意外性来进行实验。结果发现，在许多情况下，可以利用意外性来预测 N400 的幅度，并且无法预测的情况提供了洞察神经认知过程的有价值的见解。

Oct, 2020

BERT 受到惊讶的方式？语言异常的逐层检测

本篇论文通过在三种语言模型（BERT，RoBERTa 和 XLNet）的中间层使用高斯模型进行密度估计，评估了我们的方法。结果表明，语言模型使用不同的机制来检测不同类型的语言异常，语义异常和常识异常在 RoBERTa 模型上没有在任何中间层中表现出异常惊异。

May, 2021

语言模型性能度量在心理语言学建模中的应用：人们阅读行为的概率预测

通过对现代神经结构的分析，提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell（2018 年）的观点，证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络，变形器和预训练模型。

Sep, 2020

语言模型模拟特定的认知模式：可预测性度量如何与个体差异相互作用的研究

通过整合语言用户的认知能力信息，重新评估了从多种语言模型中估计出的意外性和熵的预测能力，以读时数据作为对处理工作的度量，研究发现大多数情况下，整合认知能力提高了意外性和熵对读时的预测能力，并且研究结果表明分析的语言模型模拟了具有较低语言智力的读者，对具有高语言智力的目标群体的预测估计较不准确。

Jun, 2024

通过温度调整的惊奇度提高对人类阅读时间的拟合

通过概率校准的概念，本文首次关注人类阅读模拟的概率分布，提出使用温度调整的意外度作为预测人类阅读时间的指标，通过三个数据集的实验证明这种意外度可以显著提高阅读时间的预测，在本文的设置中，将温度设置为大约 2.5 可使对数似然度增加 89％。同时，本文还提出了一个校准度量指标来量化可能的人类偏好偏差，并进行了进一步分析以提供相关洞察。

Nov, 2023

人类语言的假观念：为何统计学需要语言学

研究语言处理的统计表面分布和基于句法信息的离散分层结构之间的紧张关系，揭示了只有反映句法结构的 surprisal 模型能够解释语言的规律性。

Feb, 2023