从语言学资讯中学习音位组合规则

May, 2024

从语言学资讯中学习音位组合规则

Learning Phonotactics from Linguistic Informants

Canaan Breiss, Alexis Ross, Amani Maina-Kilaas, Roger Levy, Jacob Andreas

TL;DR使用与语言相关的数据来学习语法的互动学习方法，通过信息论策略选择询问或合成数据并从语言学者处获得反馈，有效率地实现语言学习。

Abstract

We propose an interactive approach to language learning that utilizes linguistic acceptability judgments from an informant (a competent language user) to learn a →

interactive approach language learning grammar linguistic data information-theoretic policies

发现论文，激发创造

通过分解学习自适应语言界面

该研究旨在创建一个交互式、自然语言接口，通过学习用户在模拟机器人环境中完成任务。该接口引入了一种神经语义解析系统，通过分解学习新的高层抽象：用户通过将描述新行为的高层话语分解为它可以理解的低级步骤来与系统互动。作者的方法弥合了现有方法之间的差距，并证明了现代神经系统的灵活性以及基于语法的方法具有的一次可靠泛化能力。研究还讨论了实现交互式范式的潜力的障碍。

Oct, 2020

无监督语言习得：理论与实践

本论文研究了无监督机器学习在自然语言方面的应用，提出了三种新算法，旨在考察 “刺激贫乏” 问题以验证人类是否具有特定内在语言知识，最终得出刺激贫乏论不受证据支撑的结论。

Dec, 2002

视觉引导语法归纳模型的联合推理中重新定义语言启发

使用一系列神经视觉语法归纳模型，通过同时学习句法和语义来展示语义引导和句法引导对语言习得的影响，并表明联合学习能够提高语法归纳、词类学习和新句子和动词意义的解释。联合学习通过相互约束句法和语义的假设空间，使得语言习得对学习者更容易。同时，研究联合推理的动态过程对于语言建模和学习研究来说是一个重要的新方向，在认知科学和人工智能领域可以帮助我们解释如何在更受限的学习环境中学习语言。

Jun, 2024

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

编码语言信息与任务表现之间关系的可视化

使用 Pareto Optimality 观点研究编码的语言信息和任务性能之间的动态关系，提出了一种多目标优化的方法，通过对两个流行的 NLP 任务进行实验发现，一些句法信息有助于 NLP 任务，而编码更多的句法信息不一定能够提高性能。

Mar, 2022

低文档化语言 NLP 中语言专业知识的意义

本研究指出，利用语言学家的专业知识，IGT 数据可以成功应用于 NLP 项目中，但需要定义任务、语言专业知识和任务评估等步骤，本文以 Gitksan 语 Morphological Reinflection 系统为例详细介绍。

Mar, 2022

一种基于贪心发音选择框架的声学数据驱动的词汇表学习

本文提出了一种从转录数据中自动获得单词发音的系统，重点解决了从词汇表中删除词条的问题，实验结果表明我们提出的框架可以学习一个词汇表，在测试数据上的语音识别错误率 (WER) 性能接近于专家词汇表，而且比基于 G2P 或基于发音概率修剪标准构建的词典更好。

Jun, 2017

生成和跟随指令的统一语用模型

使用显式的实用推断对于复杂的序列任务生成和遵循自然语言指令是有帮助的，研究表明实用推断可以提高在不同环境下生成和理解自然语言指令的效果。

Nov, 2017

人工神经网络对人类语言习得的启示

通过使用机器学习及自然语言处理技术，研究语言习得过程，探讨如何让模型学习在有限的语言输入下获取语言知识，以验证关于人类语言学习本质的假说。

Aug, 2022

揭开语言习得的黑盒子

通过序列记忆和分块构建的最小认知体系架构用于学习语言，替代了使用深度学习的大型语言模型，并且能够从零开始学习人工语言，并提取支持学习的语法信息。研究表明这种简单的架构的强大性，并强调序列记忆作为语言学习过程的关键组成部分的重要性，这可能解释了仅人类发展了复杂语言的原因。

Feb, 2024