揭开语言习得的黑盒子
通过在人工语言学习研究中复制并测试深度神经网络学习新语言的记忆和推广能力,我们在神经网络与人类之间发现了惊人的相似性,并发现结构化语言输入在提高神经网络系统化概括和记忆错误方面的效果与自然语言存在高度相关性。
Feb, 2023
本文介绍了现代深度神经网络在机器翻译等需要广泛语言技能的工程应用中取得的卓越性能,探讨它们是否从接触的原始数据中引导出类似于人类语法知识的思想,并讨论这些工作对理论语言学的广泛影响。
Apr, 2020
神经语言模型(LM)在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现,尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格,并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时,LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集,这些数据集已由大量母语用户进行了梯度可接受性评估,并旨在特别探索语法的结构基础。在这样一种数据集(LI-Adger 数据集)上,LM 在评估句子时与人类语言用户的方式不一致。最后,我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。
Oct, 2023
深度学习和自然语言处理在构造语法研究中产生了强大的模型,通过训练填空问题,显示了对丰富的语言信息和结构化知识的访问,本文旨在探索计算方法和构造语法研究之间的协同关系,并提供了深度学习模型的综合概述,以促进这两个领域的研究者之间的合作。
Aug, 2023
通过使用外部语言知识来作为 RNN 模型的显式信号,将文本序列图形化表示并进行无环子图分解,以实现 RNN 模型对长期依赖关系的建模,并应用于文本理解任务,实现新的 SOTA 效果。
Mar, 2017
本文介绍了探测方法学,通过使用外部分类器和统计分析,可以获得内层神经网络中存储的语言现象的部分表示。我们对多个 transformer 英语模型进行了时间顺序探测研究,并提供了这种探测研究的开源框架。结果表明,语言信息在训练的早期阶段就被获取,同时这些模型能够捕捉各种级别语言的各种特征,包括语态、句法和语篇,但有时他们无法完成一些容易的任务。
Jul, 2022
通过研究大型语言模型,该论文揭示了语言模型与人类大脑的相似性,重点分析了架构组件中的分词策略和多头注意力以及需求确定性的关键因素,最终提出了一种高度与人类大脑和行为对齐的模型。
Jun, 2024
探讨了人类语言习得中词汇分类的起源是基于先天内在结构还是出于自然学习的能力,利用人工神经网络预测语句中下一个词,揭示了也许由于预测编码和过程,大脑也可能形成抽象的词汇分类,即使其在训练时没有接收到有关词汇分类或语法规则的任何明确信息。
Feb, 2023