辅助任务需求掩盖了较小语言模型的能力

Apr, 2024

辅助任务需求掩盖了较小语言模型的能力

Auxiliary task demands mask the capabilities of smaller language models

Jennifer Hu, Michael C. Frank

TL;DR发展心理学家们就认知能力（如语言理解或心灵理论）何时出现进行了辩论。这些辩论往往取决于 “任务需求” 的概念 —— 与执行特定评估相关的辅助挑战 —— 这可能掩盖了儿童潜在的能力。在衡量语言模型（LM）的能力时也会遇到类似问题：对任务的表现是模型基本能力和利用其可用资源解释和执行任务的能力的综合体现。在这里，我们展示了对类比推理、反思推理、词语预测和语法判断的评估方法中，存在较高任务需求的评估比需求较低的评估表现更低。这种 “需求差距” 在参数较少、训练数据较少的模型中最为明显。我们的结果表明，LM 性能不应被解释为智能（或缺乏智能）的直接指示，而应看作是通过研究者设计选择镜头下看到的能力的反映。

Abstract

Developmental psychologists have argued about when cognitive capacities such as language understanding or theory of mind emerge. These debates often hinge on the concept of "task demands" -- the auxiliary challen

cognitive capacities task demands language models evaluation methods lm performance

发现论文，激发创造

推理还是背诵？通过反事实任务探索语言模型的能力和限制

该研究旨在研究当前语言模型的抽象推理能力，提出一种基于 “反事实” 任务变体的评估框架，在一系列 11 项任务中观察到对反事实变体的表现，但表明当前语言模型的表现往往会严重且一致地降级，提示需要更加仔细地解释语言模型的表现。

Jul, 2023

机器与儿童的比较：使用发展心理学实验评估 LaMDA 响应的优缺点

利用儿童发展心理学经典实验评估大型语言模型（LLMs）的能力，提出一种评估 LLMs 能力的 LRS 度量，将 Google 的 LaMDA 模型应用于实验，发现 LaMDA 在社交认知任务中回答的适当反应与儿童相似，但在早期物体行为认知、心理理论以及因果推理方面的回答则与儿童有很大不同，表明这些领域需要更多的现实世界自发探索，不能简单地通过语言输入模式学习。

May, 2023

评估神经语言模型作为语言习得的认知模型

神经语言模型（LM）在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现，尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格，并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时，LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集，这些数据集已由大量母语用户进行了梯度可接受性评估，并旨在特别探索语法的结构基础。在这样一种数据集（LI-Adger 数据集）上，LM 在评估句子时与人类语言用户的方式不一致。最后，我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。

Oct, 2023

通过任务空间解释语言模型

通过构建语言任务空间，借助相似性探测与梯度差分的微调方法，研究发现大型语言模型更好地泛化到语言任务的总体概念，利用其共享结构。此外，预训练通过加强相关语言任务之间的参数共享来增加语言处理的分布性。整体泛化模式在训练过程中基本稳定且没有明显分界点，这可能解释了语言模型缺乏成功的课程策略的原因。

Jun, 2024

揭示语言模型能力结构

本研究通过贝叶斯和频率分析结合，从 29 个 LLM 的数据中分析出 LLMs 的能力结构，发现 LLMs 的能力不是单一的，而是可以被解释为三个能力：推理、理解和核心语言建模，并且这三个能力可以解释模型性能的高比例差异，可以用来指导模型的改进和评测。

Jun, 2023

评估大型语言模型的推理能力

大型语言模型（LLMs）的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现，这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验，探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异，但总体性能并未提高。此外，我们还发现性能与展示格式和内容以出人意料的方式相互作用，与人类表现有所不同。总的来说，我们的结果表明 LLMs 具有独特的推理偏见，其只能部分预测人类的推理表现。

Sep, 2023

大型语言模型的反事实任务证据支持紧急类比推理

最近的研究证明，大型语言模型能够以零样本的方式解决各种基于文本的类比问题，表明存在一种新兴的类比推理能力。最近的两篇评论对这些结果提出了质疑，引用了所谓的 ' 反事实 ' 任务的证据，其中标准的字母序列被任意改变，以减少与语言模型训练数据中可能存在的材料的相似性。在这里，我们回应这些批评，并澄清了关于我们原始工作中使用的测试材料的一些误解，并提供证据证明语言模型也能够推广到这些新的反事实任务变体。

Apr, 2024

确立可信度：重新思考任务和模型评估

语言理解是一个多方面的认知能力，自然语言处理（NLP）领域几十年来一直致力于计算化建模。最近大型语言模型（LLMs）的出现，使得以生成模型为动力的通用性、任务无关的方法成为主流，这导致了语言任务传统上的划分不再适用，带来了对评估和分析的挑战，同时也加大了对可靠系统的需求。因此，我们主张重新思考 NLP 中任务和模型评估的涵义，并追求对语言的更全面视角，将可靠性放在核心地位。为了实现这一目标，我们回顾了现有的划分式方法，以了解模型功能能力的起源，并提出了多方面评估协议的建议。

Oct, 2023

语言模型未学习的任务

我们通过一系列任务（H-TEST）对语言的视听属性进行了实证调查，发现当前大规模语言模型（LLMs）存在无法学习的语言属性。我们的实验证明，常识推理、少样本示例或同一模型系列的更强大的语言模型不能显著改善 H-TEST 性能，这与人类的语言理解存在本质差距，并突出显示了在缺乏感知经验的情况下获取知识的局限性。

Feb, 2024

一项测试模型在某些推理任务中的能力的案例研究

大型语言模型在生成个性化内容和促进交互对话方面表现出色，但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力，突出了当前挑战和限制，阻碍了它们在复杂推理场景中的有效性。

Feb, 2024