人类与语言模型在预测重复文本时的差异

Oct, 2023

人类与语言模型在预测重复文本时的差异

Humans and language models diverge when predicting repeating text

Aditya R. Vaidya, Javier Turek, Alexander G. Huth

TL;DR通过研究语言模型在下一个单词预测任务中的表现与人类行为模式的比较，发现人类与 GPT-2 语言模型在文本展现初期表现强相关，随着记忆（或背景学习）的作用逐渐发挥，二者的表现迅速分歧，研究发现这种分歧的原因是特定的中间层注意力头部，为此通过在这些注意力头部中添加幂律最近偏倚，构建了一个更接近人类行为的模型，希望此案例能够推动将语言模型更加贴近人类行为的未来研究。

Abstract

language models that are trained on the next-word prediction task have been shown to accurately model human behavior in word prediction an

language models next-word prediction divergence attention heads human behavior

发现论文，激发创造

机器心理学：大型语言模型预测人类记忆

通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力，研究发现 ChatGPT 和人类的表现有惊人的一致性，尽管它们的内部机制可能存在显著差异，这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。

Mar, 2024

预测下一个单词：人类在此任务中表现出的不确定性及语言模型

语言模型相对于人类生成的文本是否准确地表达语言变异性，以及 GPT2、BLOOM 和 ChatGPT 在从统计层面上评估这种能力时的失调问题和预期校准误差的失效问题。

Feb, 2024

神经语言模型对人类实时理解行为的预测能力

通过对二十多种不同的计算模型测试发现，尽管这些模型可能包含不同的结构、方法和数据集，但其前向单词期望和人类阅读行为之间的关系是很直接的，其中深度 Transformer 模型和 n-gram 模型在眼动数据方面表现优异，而在句法知识和预测能力之间不存在重大关系。

Jun, 2020

人类和语言模型中的抵押品促进

使用来自 3 个心理语言学实验的刺激，发现当高度异常的单词与前面的语境或最有可能的延续相关时，8 个现代转换器语言模型（BERT、ALBERT、RoBERTa、XLM-R、GPT-2、GPT-Neo、GPT-J 和 XGLM）也几乎总是表现出类似的加工优势，这个现象对于我们对于人类语言理解和语言模型预测的理解都有重要意义。

Nov, 2022

多语言语言模型预测人类阅读行为

本文研究利用大型语言模型来预测人类阅读行为，并比较了针对特定语言和多语言的预训练变压器模型在预测荷兰语、英语、德语和俄语文本上反映自然人类句子处理的阅读时间测量方面的表现。结果显示，变压器模型可以准确地模拟人类阅读行为，预测出了各种眼动特征，表明变压器模型可以以类似于人类处理机制的方式隐式地编码语言的相对重要性。作者还分析了这些模型的跨领域和跨语言能力，并展示了它们如何反映人类句子处理。

Apr, 2021

语言模型与人脑的差异

研究发现，虽然语言模型和人类在处理语言时存在共同的计算原理，但它们在获取和使用语言方面存在明显差异，本研究通过比较语言模型的表示和人类大脑对语言的反应，发现语言模型并未很好地捕捉到情感理解、比喻语言处理和物理常识等三个现象，通过针对这些现象进行语言模型的细化调整，发现细化调整后的语言模型在这些任务中与人类大脑的反应更加一致，因此我们认为语言模型与人脑之间的差异可能源于语言模型对这些特定类型的知识的不足表示。

Nov, 2023

通过从头开始训练领域知识来匹配领域专家

通过领域特定的自回归训练方法，在小型的 GPT-2 模型上训练神经科学文献，可以实现即使在小规模的语言模型上也能达到专家水平的性能表现。

May, 2024

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

语言模型中出现的类人直觉行为和推理偏见 —— 以及 GPT-4 中的消失

本研究通过使用心理学方法，展示了大型语言模型（LLMs），尤其是 GPT-3，表现出类似于人类直觉的行为和认知错误，而具有更高认知能力的 LLMs，特别是 ChatGPT 和 GPT-4，学会避免这些错误，并表现出超理性的方式；此外，我们还探究了直觉决策倾向的稳定程度。

Jun, 2023

ChatGPT 在语言使用上是否与人类相似？

通过 12 个预注册的实验，我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理，但是他们在一些方面与人类处理方式存在差异，并且可能通过 Transformer 架构来解释这些差异。

Mar, 2023