多语言语言模型中展示抽象语法表示的结构启动实证
多语言语言模型是否在不同语言之间共享抽象语法表示以及这些抽象语法表示是何时形成的?我们使用结构启动测试进行研究,发现跨语言结构启动效应在第二语言曝光不到 1M 标记的数据后就会早期显现,并讨论了数据污染、低资源转移以及多语言模型中抽象语法表示形成的意义。
Oct, 2023
研究现代神经语言模型在结构启动方面的易感性,探讨如何利用启动来研究这些模型学习抽象结构信息的潜力,引入新度量和发布大型语料库 Prime-LM,发现 Transformer 模型确实显示结构启动的证据,但也显示出它们学习的概括在某种程度上受语义信息的调节,综合实验表明,模型获得的表示不仅编码抽象的连续结构,还涉及某些层次的句法信息。
Sep, 2021
我们研究了语言模型预测中在句子和单词级别发挥重要作用的语言因素,并调查这些因素是否反映了人类和人类语料库中的结果。我们利用结构启动范式,其中对结构的最近暴露有助于相同结构的处理。我们不仅调查了引导效果是否发生,还调查了它们发生的位置以及预测它们的因素。我们表明,这些效应可以通过逆频率效应来解释,即在人类引导中众所周知,引导中的较罕见元素增加引导效果,以及引导和目标之间的词汇依赖性。我们的结果为如何理解上下文中的属性如何影响语言模型中的结构预测提供了重要线索。
Jun, 2024
通过评估循环神经网络(RNN)和 Transformer 在复制跨语言结构启动方面的表现,这项研究对人类语言处理中抽象语法表示的关键指标进行了评估。研究重点关注涉及两种类型不同的语言的中英启动,探讨这些模型如何处理结构启动这一稳定现象,即暴露于特定句子结构会增加之后选择类似结构的可能性。此外,我们还利用大型语言模型(LLM)来衡量跨语言结构启动效果。研究结果表明 Transformer 在生成启动句子结构方面的性能优于 RNN,挑战了人类句子处理主要涉及循环和即时处理的传统观念,同时表明了基于线索的检索机制的作用。总体而言,这项工作对于了解计算模型如何反映多语言环境中人类认知过程具有重要贡献。
May, 2024
提出了一种新的技术来分析神经语言模型在句法结构敏感性方面的代表性,并证明 LSTM LMs 对于具有关系从句的不同类型的句子的表示是按照语言可解释的层次结构组织的,表明 LMs 跟踪句子的抽象属性。
Sep, 2019
Transformer-based large language models perform well in generalizing word distributions in related contexts seen during pre-training, but fail in generalizations between unobserved contexts by relying on linear order instead of more abstract structural generalizations.
Nov, 2023
使用一种新的认知动机解析器,基于实证启动模式的理论可以生成关于结构表示形式的定量预测,并通过实证的人类行为评估这些预测。本研究以简化的限定性从句表示作为案例研究应用该框架,并发现只有理论之一(分词 - 阶段论)的预测与实证启动模式相一致,从而突显了关于限定性从句更好地捕捉人类句子表示形式的假设。
Mar, 2024
我们旨在解释人脑如何将单词连接起来形成句子,通过引入一种新颖的模型来建模句法表示,可能显示出所有自然语言的普遍句法结构的存在,从而提供人类大脑中语言工作方式的基本理解,同时为语言学、心理学和认知科学的理论提供一些见解。我们研究了普遍句法结构的逻辑和建模技术的方法论,试图分析展示不同自然语言(如英语和韩语)中语言过程的普遍性的语料库。最后,我们讨论了关于人类大脑理解方面的关键周期假说、普遍语法以及其他一些语言断言。
Dec, 2023
通过对实验文本进行语言模式的分析,发现大型语言模式在语言偏见的适应方面与人类存在一定的相似性,但是在情境学习的环境下,大型语言模式与人类的偏见适应存在差异。
May, 2023