将神经语言模型在发展合理数据的课程中进行训练，是否可以提高与人类阅读行为的一致性？

Nov, 2023

将神经语言模型在发展合理数据的课程中进行训练，是否可以提高与人类阅读行为的一致性？

Can training neural language models on a curriculum with developmentally plausible data improve alignment with human reading behavior?

PDF

Aryaman Chobey, Oliver Smith, Anzi Wang, Grusha Prasad

TL;DR使用神经语言模型对人类行为进行建模在研究中获得了不同的结果。本文通过在 BabyLM 挑战中使用更贴近发展的数据集来探索实证数据和模型预测行为之间的不匹配程度。通过对 BabyLM 的数据集进行师生训练和课程设计，研究发现，虽然这种改进使得模型更容易从训练数据中获取语言知识，但并未导致模型对人类阅读行为的预测与之更加一致，这表明仅仅在发展上合理的数据集上训练模型可能不足以准确预测人类语言处理。

Abstract

The use of neural language models to model human behavior has met with mixed success. While some work has found that the surprisal estimates from these models can be used to predict a wide range of human neural a

neural language models surprisal estimates developmentally plausible data babylm challenge linguistic knowledge acquisition

发现论文，激发创造

人工神经网络对人类语言习得的启示

通过使用机器学习及自然语言处理技术，研究语言习得过程，探讨如何让模型学习在有限的语言输入下获取语言知识，以验证关于人类语言学习本质的假说。

Aug, 2022

CLIMB：婴儿启发式模型构建的课程学习

我们通过三种认知引导的课程学习变体对模型在语言评估任务上的性能进行了分析，并发现在早期训练阶段对词汇、训练实例的顺序和目标任务进行合理选择可以达到一定的改进效果。

Nov, 2023

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

训练语言模型概括叙述能够提高大脑对齐

训练自然语言处理系统以深入理解语言是该领域的中心目标之一。本文从人类大脑理解自然语言的角度出发，研究了使用叙述数据集进行深层次叙事理解训练的语言模型是否真正学习了更深层次的文本理解，并表明了这种训练可以带来更好的大脑 - 自然语言处理对齐性、可以使语言模型在长距离文本理解方面取得改进。

Dec, 2022

神经语言模型并非一出生就适合大脑数据，但训练有助于改善

本文探讨了使用神经语言模型对大脑活动进行研究的方法，主要研究了测试损失、训练语料库和模型架构对捕捉大脑活动的影响，并提出了未来研究的良好实践建议。

Jul, 2022

神经语言模型对人类实时理解行为的预测能力

通过对二十多种不同的计算模型测试发现，尽管这些模型可能包含不同的结构、方法和数据集，但其前向单词期望和人类阅读行为之间的关系是很直接的，其中深度 Transformer 模型和 n-gram 模型在眼动数据方面表现优异，而在句法知识和预测能力之间不存在重大关系。

Jun, 2020

评估神经语言模型作为语言习得的认知模型

神经语言模型（LM）在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现，尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格，并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时，LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集，这些数据集已由大量母语用户进行了梯度可接受性评估，并旨在特别探索语法的结构基础。在这样一种数据集（LI-Adger 数据集）上，LM 在评估句子时与人类语言用户的方式不一致。最后，我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。

Oct, 2023

大型语言模型的心理测量预测能力

语言模型的下一个词概率已成功模拟了人类阅读行为。然而，在此基础上的研究表明，为了提供人类首选回答而进行的指导调整反而降低了大型语言模型在计算心理语言学视角下的心理测量预测能力。此外，使用特定语言学假设的提示方法仍然不如基础语言模型，暗示最近的指导调整和提示方法在认知建模中无法提供比基础语言模型更好的估计。

Nov, 2023

大型语言模型中对齐的基本限制

本文提出了一种名为行为期望范围（BEB）的理论方法，用于正式研究大型语言模型对齐的几种固有特性和限制，揭示了 LMM 对齐的根本局限性，并凸显了确保 AI 安全的可靠机制的必要性。

Apr, 2023