语言模型的优势是什么？

ACLJun, 2024

What Makes Language Models Good-enough?

Daiki Asami, Saku Sugawara

TL;DR心理语言学研究发现，人类可能会构建一个对于当前任务而言足够好的语言输入表示。本研究探讨了使语言模型学习类似人类好还是足够好的语言处理的体系结构特征。我们关注 Transformers 中层数和自注意头数，并创建了一个好而足够的语言处理评估数据集，用于测试两种可信度类型、八种构造类型和三种记忆成本对语言处理的影响。通过对 GELP 的标注，我们首先进行了一项众包实验，该实验的设计遵循了先前的心理语言学研究。然后，我们评估了模型在标注 GELP 上的表现，结果显示完整的模型以及层数较少和 / 或自注意头较少的模型均表现出足够好的性能。这一结果表明，具有较浅层数和较少自注意头的模型可以学习足够好的语言处理。

Abstract

psycholinguistic research suggests that humans may build a representation of linguistic input that is 'good-enough' for the task at hand. This study examines what architectural features make →

psycholinguistic research language models architectural features language processing transformers

发现论文，激发创造

限制记忆能力的语言模型捕捉人类句子处理中的干扰

该研究通过开发一个具有单个自注意头的循环神经语言模型，捕捉到了人类实验中观察到的语义和句法干扰效应。

Oct, 2023

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

语言的深度学习易度是由什么决定的？

通过在人工语言学习研究中复制并测试深度神经网络学习新语言的记忆和推广能力，我们在神经网络与人类之间发现了惊人的相似性，并发现结构化语言输入在提高神经网络系统化概括和记忆错误方面的效果与自然语言存在高度相关性。

Feb, 2023

基于浅层未训练多头注意力网络的类脑语言处理

通过研究大型语言模型，该论文揭示了语言模型与人类大脑的相似性，重点分析了架构组件中的分词策略和多头注意力以及需求确定性的关键因素，最终提出了一种高度与人类大脑和行为对齐的模型。

Jun, 2024

人工神经网络对人类语言习得的启示

通过使用机器学习及自然语言处理技术，研究语言习得过程，探讨如何让模型学习在有限的语言输入下获取语言知识，以验证关于人类语言学习本质的假说。

Aug, 2022

结构化、灵活、鲁棒：针对超出分布推理任务对大型语言模型进行基准测试和改进，以实现更类似于人类的行为

人类语言在思维和学习结构方面发挥重要作用。本文提出了一个挑战测评与深度学习语言模型相比人类表现的基准，并通过提供结构化符号推理模块来拓展深度学习语言模型，以使其更符合人类推理。实验表明，在语言表达能力、泛化能力等方面，人类远远优于 LLMs，这说明混合 AI 模型具有更接近人类推理的潜力。

May, 2022

揭开语言习得的黑盒子

通过序列记忆和分块构建的最小认知体系架构用于学习语言，替代了使用深度学习的大型语言模型，并且能够从零开始学习人工语言，并提取支持学习的语法信息。研究表明这种简单的架构的强大性，并强调序列记忆作为语言学习过程的关键组成部分的重要性，这可能解释了仅人类发展了复杂语言的原因。

Feb, 2024

太大而无法失败：较大规模的语言模型对痴呆相关语言异常的诱导具有不成比例的抵抗力

神经网络的内在评估指标，困惑度（PPL），被广泛用于理解自回归神经语言模型（NLMs）的行为。该研究探索了一种新型的双向注意力头切除方法，其呈现了与人脑研究中认知和大脑储备概念相关的特性，暗示了转换器模型中的注意机制可能与神经退行性疾病和衰老的某些方面的进展有关。

Jun, 2024

语言模型与关键的语法构造符合人类判断

大型语言模型能否像人类一样进行语言普适性推断？通过重新评估 Dentella 等人的研究，我们发现，大型语言模型不仅总体上准确性很高，而且还能捕捉到人类语言判断的细微差异。

Jan, 2024

语言模型行为：综合调查

调查了 250 多个英文语言模型行为的研究，讨论了 Transformer 语言模型在特定任务微调之前的基本功能，以及模型对特定输入和表面特征的敏感性。尽管模型参数规模扩大到数百亿，但仍容易出现非事实性回答、常识错误、记忆文本和社会偏见等弱点。我们综合近期结果，强调了目前关于大型语言模型能够和不能够做到什么的已知情况。

Mar, 2023