语言模型对我们的理解仍不完善

EMNLPOct, 2022

Language Models Understand Us, Poorly

Jared Moore

TL;DR讨论了自然语言理解的三种观点（作为映射、作为可靠性和作为表示），认为虽然行为可靠性对于理解来说是必要的，但内部表示是足够的，提出了刻画有限的有效的语言和多模型的挑战，质疑了范式缩放的极限。最后，说明了如何通过作为表示来推进对理解的科学研究。

Abstract

Some claim language models understand us. Others won't hear it. To clarify, I investigate three views of human language understanding: as-mapping, as-reliability and as-representation. I argue that while

language models human language understanding scalable models behavioral reliability internal representations

发现论文，激发创造

关于一般语言理解

自然语言处理领域对于意义和测量的问题进行了实证研究，本文勾勒了一种理解模型，用于评估当前模型质量测量方法的适应性，并指出不同语言使用情境类型的特点、语言理解是多方面现象，以及理解指标的选择标志了对基准测试和语言处理伦理的考虑的开端。

Oct, 2023

语言模型是实用演讲者

本文通过概率认知模型解释了语言模型的运行方式，尤其是展示了通过强化学习从人类反馈中优化的大型语言模型实现了一种类似于 Kahneman 快慢思考模型的思维模型，并讨论了强化学习作为快慢思考模型的局限性，并提出了扩展此框架的方向。总的来说，我们的工作表明，通过认知概率建模的视角来理解、评估和发展语言模型可以提供有价值的见解。

May, 2023

语言模型表达自我和他人的信念

通过神经激活语言模型，线性解码不同代理人的信念状态，发现其内部包含了自我和他人信念的表征，这些表征对社会推理过程具有关键作用，同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。

Feb, 2024

大型语言模型朝向类脑词表示的收敛

大型语言模型的神经表示与脑成像测量的神经响应非常相似，因此表明该模型可以产生类人的表示。

Jun, 2023

将机器语言模型推广至人类水平的语言理解

语言是理解和交流情境的关键，而语言处理系统使用类似人脑的神经网络以及查询注意力等方法来提高其能力，但当前的模型主要集中在内部语言任务上，限制其理解情境的能力，因此需要未来的模型应用认知神经科学和人工智能来扩展理解任务。

Dec, 2019

语言模型行为：综合调查

调查了 250 多个英文语言模型行为的研究，讨论了 Transformer 语言模型在特定任务微调之前的基本功能，以及模型对特定输入和表面特征的敏感性。尽管模型参数规模扩大到数百亿，但仍容易出现非事实性回答、常识错误、记忆文本和社会偏见等弱点。我们综合近期结果，强调了目前关于大型语言模型能够和不能够做到什么的已知情况。

Mar, 2023

AI 大语言模型理解问题之争

研究人工智能中对大规模预训练语言模型是否在任何重要意义上可以称为 “理解” 语言，以及对应的关键问题和新的智能领域的发展。提出一种新的智能科学来提供关于知识的不同模式，以及它们的优势和限制，以及融合不同形式认知的挑战的见解。

Oct, 2022

任何可想象机制的限制之外：大语言模型与心理语言学

大型语言模型在心理语言学中扮演重要角色，因为它们是实用的工具、比较性的例证，并对重新审视语言和思维的关系具有哲学意义。

Feb, 2023

人类与语言模型的语用语言理解的精细比较

本文通过在英语材料的专家评估集上进行零 - shot 提示，进行了人类和语言模型在七个语用现象上的精细比较，发现最大的模型可以实现高精度和匹配人类错误模式，同时发现证据表明模型和人类对相似的语言提示敏感，旨在探讨人类语用处理机制和语言模型之间的关系。

Dec, 2022

语言模型：困惑者指南

给定人工智能素养的重要性，本研究撰写了本教程，旨在帮助缩小学习语言模型（如 ChatGPT 等产品的核心技术）的研究者与对其感兴趣并希望了解更多的人之间的差距。总之，我们相信研究人员和教育工作者的观点可以增加公众对这些技术的理解，超越目前仅有的极其专业或由产品供应商生成的宣传材料。通过将语言模型概念与基于其构建的产品、产品所表现的行为以及与人类认知相似性的主张区分开来的方法，我们提供了（1）以实验研究为研究对象的科学观点；（2）将当前的语言模型置于其发展研究的背景中；（3）描述了目前对这些模型的已知范围。

Nov, 2023