语言模型是否容易被语言幻觉欺骗？在句法方面较容易，在语义方面较困难

Nov, 2023

语言模型是否容易被语言幻觉欺骗？在句法方面较容易，在语义方面较困难

Can Language Models Be Tricked by Language Illusions? Easier with Syntax, Harder with Semantics

Yuhan Zhang, Edward Gibson, Forrest Davis

TL;DR语言模型的能力与人类在语法判断任务中的重叠度已被讨论，但当人类在语言处理中系统性地出现错误时，我们是否应该期望语言模型像语言认知模型一样模仿人类行为？通过研究与 “语言幻觉” 相关的语言模型更微妙的判断，本文回答了这个问题。研究发现，与需要复杂语义理解的比较幻觉和深度冲击幻觉相比，语言模型所代表的概率更可能与人类对结构依赖的 “负极性项目幻觉” 误判一致。没有一个单独的语言模型或度量方法能完全一致地与人类行为相符。最终，本文展示了语言模型在作为人类语言处理的认知模型以及识别复杂语言材料中微妙但关键信息的能力受到限制。

Abstract

language models (LMs) have been argued to overlap substantially with human beings in grammaticality judgment tasks. But when humans systematically make errors in language processing, should we expect LMs to behave like cognitive models of language and mimic human behavior? We answer th

language models language illusions comparative illusion depth-charge illusion negative polarity item illusion

发现论文，激发创造

语言模型与关键的语法构造符合人类判断

大型语言模型能否像人类一样进行语言普适性推断？通过重新评估 Dentella 等人的研究，我们发现，大型语言模型不仅总体上准确性很高，而且还能捕捉到人类语言判断的细微差异。

Jan, 2024

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

以语言为基础的视错觉衔接：视觉 - 语言模型是否像人类一样感知错觉？

通过构建包含五种视觉错觉的数据集并制定四项任务，研究发现，虽然整体对齐性较低，但更大的模型更接近人类感知且更容易受到视觉错觉的影响，这将促进对人类和机器中的视觉错觉有更深入的理解，并为未来能够更好地使人类和机器在感知和交流共享的视觉世界方面达到一致的计算模型提供基础。

Oct, 2023

学习快速捷径：关于语言模型中自然语言理解的误导承诺

大型语言模型在自然语言处理领域取得了重要的性能提升，然而近期的研究发现，这些模型在执行任务时往往使用了捷径，导致性能看起来得到了提升，却缺乏泛化能力。这一现象给大型语言模型的自然语言理解评估带来了挑战。本文对该领域的相关研究进行了简明调查，并提出了对于捷径学习在语言模型评估中的影响的观点，特别是对于 NLU 任务。本文呼吁加大对捷径学习的研究力度，促进更加强大的语言模型的开发，并提高在实际场景中的 NLU 评估标准。

Jan, 2024

评估神经语言模型作为语言习得的认知模型

神经语言模型（LM）在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现，尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格，并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时，LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集，这些数据集已由大量母语用户进行了梯度可接受性评估，并旨在特别探索语法的结构基础。在这样一种数据集（LI-Adger 数据集）上，LM 在评估句子时与人类语言用户的方式不一致。最后，我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。

Oct, 2023

语言模型与人脑的差异

研究发现，虽然语言模型和人类在处理语言时存在共同的计算原理，但它们在获取和使用语言方面存在明显差异，本研究通过比较语言模型的表示和人类大脑对语言的反应，发现语言模型并未很好地捕捉到情感理解、比喻语言处理和物理常识等三个现象，通过针对这些现象进行语言模型的细化调整，发现细化调整后的语言模型在这些任务中与人类大脑的反应更加一致，因此我们认为语言模型与人脑之间的差异可能源于语言模型对这些特定类型的知识的不足表示。

Nov, 2023

大型语言模型在代词解释中部分预先启动

通过对实验文本进行语言模式的分析，发现大型语言模式在语言偏见的适应方面与人类存在一定的相似性，但是在情境学习的环境下，大型语言模式与人类的偏见适应存在差异。

May, 2023

大型语言模型假设人类比实际更加理性

AI 系统需要理解我们的决策方式以便与人类有效沟通，然而人类的决策并不总是理性的，因此大型语言模型（LLMs）中的人类决策的隐性内部模型必须考虑这一点。先前的实证证据似乎表明这些隐性模型是准确的，LLMs 在日常互动中呈现出了人类行为的可信代理。然而，通过将 LLM 的行为和预测与大量人类决策的数据集进行比较，我们发现情况实际上并非如此：在模拟和预测人类选择时，一套尖端的 LLMs（GPT-4o 和 4-Turbo，Llama-3-8B 和 70B，Claude 3 Opus）假设人们比实际更理性。具体而言，这些模型偏离了人类行为，更接近于经典的理性选择模型 - 预期值理论。有趣的是，人们在解释他人行为时也倾向于假设他人是理性的。因此，当我们使用另一个心理学数据集比较 LLMs 和人类从他人决策中得出的推理时，我们发现这些推理之间高度相关。因此，LLMs 的隐性决策模型似乎与人类预期他人会理性行事的期望相一致，而不是与人们实际行动相一致。

Jun, 2024

语言模型能够处理递归嵌套的语法结构吗？对比模型与人类的案例研究

本文探讨了如何比较语言模型和人类的能力，并通过一个案例研究表明，给大型语言模型提供一个简单的提示可以使其在处理递归嵌套的语法结构时完善其表现，并指出了评估的差异可能会影响语言模型和人类之间的比较，从而强调了评估认知模型和基础模型之间的重要区别。

Oct, 2022