- LLM 与人类类比推理中的语义结构映射
人类学习和认知中的类比推理被认为是核心。最近的研究比较了人类与大型语言模型(LLMs)在抽象符号操作任务(如字母串类比)上的类比推理能力。然而,这些研究在对语义有意义的符号(如自然语言词汇)进行类比推理时基本上被忽略了。这种将语言与非语言领 - 视觉引导语法归纳模型的联合推理中重新定义语言启发
使用一系列神经视觉语法归纳模型,通过同时学习句法和语义来展示语义引导和句法引导对语言习得的影响,并表明联合学习能够提高语法归纳、词类学习和新句子和动词意义的解释。联合学习通过相互约束句法和语义的假设空间,使得语言习得对学习者更容易。同时,研 - 从零开始照看语言模型:通过试验和演示进行交互式语言学习
通过系统性可控实验,我们研究了互动交互对神经语言学习的影响,发现通过教师示范和学生尝试,互动式语言学习有助于语言模型的词汇学习效率提高。
- 语言模型中的紧迫沟通与学习压力:语言演化透视
通过对自发交流模型的文献综述,我们确定了塑造语言模型的关键压力:交流成功、效率、易学性和其他心理 / 社会语言因素,并认为这可以为语言习得和语言演化研究的语言模型设计提供启示。
- 无监督词性标注的综述及其对语言习得的启示
人们如何获取句法类别知识是基础性问题,本研究回顾了各种工程方法,目的在于无需先验句法知识就能正确识别样本文本中的词性,并讨论了模型的评估、约束因素以及上下文对词性的确定等共同主题。这些主题为深入研究认知过程奠定了基础,并提供了当前无监督词性 - 视觉基准帮助在低数据环境中学习词义
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
- AI 系统中自然语言理解的评估框架的再思考:语言习得作为未来指标的核心
人工智能领域,大型语言模型在自然语言处理方面的前所未有的进步为重新考虑传统的机器智能度量提供了机会。本文提出了从既定的图灵测试转向以语言习得为核心的全面框架,受到了大型语言模型最新进展的启发。
- 人类启发的渐进对齐与比较学习 用于基于语境的词汇习得
通过比较学习的计算过程,本研究模拟了人类婴儿习得第一门语言的方式,开发了一种用于词汇习得的计算过程,通过筛选和提取共享语言标签的共同信息,并将词汇的习得过程视为信息过滤和符号映射,以实现有效的持续学习。在对照实验中得到的结果显示了这种方法在 - 生物学可信的语言器官的构架
通过实验,我们展示了一个仿生学上可行的模拟语言器官,由风格化但逼真的神经元、突触、大脑区域、可塑性和感知模型组成,通过希伯规可塑性完成了语言习得的重要早期阶段:只从有限的句子输入中学习名词、动词及其含义。
- ICML元强化学习的附带简易具身语言学习
该研究探讨了机器学习模型是否能够通过非语言任务间接学习语言,设计了一个含有变化语言环境和目的地的综合任务环境,通过元强化学习算法,培养出能够正确理解渐新语言和 floor plans 的智能体。
- ACL语言习得:儿童与语言模型是否遵循相似的学习阶段?
研究比较 GPT-2 模型和儿童语言习得的性质,发现两者的语言学习趋势相似但也存在差异。
- BabySLM:面向语言习得友好的自监督口语模型基准
本文介绍了一种适用于语言习得的基准测试方法,该方法可以在词汇和句法水平上测试口语识别模型的能力,旨在进一步深入理解婴儿学习语言的过程以及使自监督学习技术能够充分发挥潜力,同时还需要克服文本和语音之间以及清晰语音和野外语音之间的差距。
- 深度神经网络训练的下一词预测中自发出现的词类表示
探讨了人类语言习得中词汇分类的起源是基于先天内在结构还是出于自然学习的能力,利用人工神经网络预测语句中下一个词,揭示了也许由于预测编码和过程,大脑也可能形成抽象的词汇分类,即使其在训练时没有接收到有关词汇分类或语法规则的任何明确信息。
- 视觉是否加速神经语言学习者的分层泛化?
本研究探讨了神经语言模型(LM)与人类学习者的效率差距,提出了学习者除文本外的其他模式,即视觉模式的可行性,并通过两个实验表明视觉模式在简化的人工场景下加速了 LMs 的合适的语法泛化,但在嘈杂的现实场景中,LMs 很难做到。这表明视觉有助 - EMNLP从海量非结构化教学视频中学习语法规则诱导器
本文研究了视频和文字间松散对应情况下的视频辅助语法归纳方法,构建了新的模型并在大规模 YouTube 数据上进行训练,实现了在不同数据集上的强大性能表现,优于之前领先的系统。
- MM基于容忍原则推导语言的动力学系统
该研究在以获得驱动框架中推导出语言的显式动力系统,假设儿童 / 学习者在语言习得过程中遵循容差原则,考虑了不同的理论参数,如种群大小,以及为学习者提供数据的以前几代的数量。
- 人工神经网络对人类语言习得的启示
通过使用机器学习及自然语言处理技术,研究语言习得过程,探讨如何让模型学习在有限的语言输入下获取语言知识,以验证关于人类语言学习本质的假说。
- 通过自监督学习构建一个真实的大脑语音处理模型
本论文针对语音识别的问题,提出自我监督学习可能是解决这一问题的一个更好的选择,核心是自己生成特征,通过自我监督可以获得和人脑工作方式类似的神经网络模型,帮助理解语言习得和人脑在语音处理方面的机理。
- 功能丰富的多路复用词汇网络揭示了早期语言学习的心理策略
本研究提出一种新的 FERMULEX 结构,通过多维度特征嵌入来丰富词义。我们运用该网络结构,研究了 1000 位 18-30 个月大的幼儿语言习得中的词汇选择偏好和语法建构,并发现其非均匀和规律性的演化过程。研究结果支持了以往的实证研究和 - ICML小数据中音素预测编码模型的学习分析
本研究基于两个不同语言的数据集,研究了两种预测编码模型(APC 和 CPC)的行为,发现 CPC 模型在短时间内已经取得了更好的表现,其预测损失优化后的表现也符合语音识别领域中音素特征学习的最优化要求。