语言习得:儿童与语言模型是否遵循相似的学习阶段?
研究神经语言模型在训练过程中如何获取单词,并提取 MacArthur-Bates 交际发展清单上 600 多个单词的学习曲线和获取年龄。与儿童的单词获取研究结合,评估 LSTMs、BERT 和 GPT-2 模型的多种预测因素,发现模型对单词频率的依赖程度远高于儿童,但与儿童相似的是,它们在更长的话语中学习单词较慢。同时,模型在训练过程中遵循一致的模式,这些结果为人类语言模型的更类人化语言习得提供了启示。
Oct, 2021
本文探讨了神经语言模型学习语言现象(linguistic phenomena)的路径(learning trajectories),发现不同的模型尽管最终性能不同,但其学习习惯(inductive bias)相似,且在不同的学习阶段表现出相似的 “成长” 阶段,研究这些阶段可以帮助了解神经语言模型中的语言表示(linguistic representation)。
Sep, 2021
神经语言模型(LM)在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现,尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格,并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时,LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集,这些数据集已由大量母语用户进行了梯度可接受性评估,并旨在特别探索语法的结构基础。在这样一种数据集(LI-Adger 数据集)上,LM 在评估句子时与人类语言用户的方式不一致。最后,我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。
Oct, 2023
本文介绍了探测方法学,通过使用外部分类器和统计分析,可以获得内层神经网络中存储的语言现象的部分表示。我们对多个 transformer 英语模型进行了时间顺序探测研究,并提供了这种探测研究的开源框架。结果表明,语言信息在训练的早期阶段就被获取,同时这些模型能够捕捉各种级别语言的各种特征,包括语态、句法和语篇,但有时他们无法完成一些容易的任务。
Jul, 2022
通过序列记忆和分块构建的最小认知体系架构用于学习语言,替代了使用深度学习的大型语言模型,并且能够从零开始学习人工语言,并提取支持学习的语法信息。研究表明这种简单的架构的强大性,并强调序列记忆作为语言学习过程的关键组成部分的重要性,这可能解释了仅人类发展了复杂语言的原因。
Feb, 2024
本文研究了神经语言模型的第二语言习得,通过对双语 LM 的训练和分析交叉语言传递,发现在语言迁移配置方面,L1 预训练可以加速 L2 的语言泛化,并且影响泛化的因素非常明显,研究了它们在特定方面的非人类的 L2 习得能力。
Jun, 2023
大型语言模型,如 GPT-4,在广泛的基于语言的任务中取得了显著的熟练度,这些任务中有些传统上与人类智能的标志相关联。这引发了关于我们能否将任何语言模型归属于语言或认知能力的程度的持续争议。本文是两篇相关论文的第一部分,旨在为哲学家提供关于语言模型的介绍,并对其与哲学、认知科学、人工智能和语言学领域中经典辩论的重要性进行主观调查。我们涵盖的主题包括语言的组成性、语言习得、语义能力、基础、世界模型和文化知识的传输。我们认为,语言模型的成功挑战了人们对人工神经网络的一些长期假设。然而,我们还强调了进一步的实证研究以更好地了解它们的内部机制的需要。这为第二部分的相关论文提供了基础,第二部分将探讨关于语言模型最新发展引发的新的实证方法和哲学问题。
Jan, 2024
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
Mar, 2023