从大型（未标注）语料库中学习语言

Jan, 2014

从大型（未标注）语料库中学习语言

Learning Language from a Large (Unannotated) Corpus

Linas Vepstas, Ben Goertzel

TL;DR本研究介绍了一种新的全自动、无监督的从大型文本语料库中提取依赖语法和相关语法到语义关系映射的方法，若成功，该方法将使得直接从大型未注释语料库中挖掘出用于自然语言理解和生成的所有信息成为可能。

Abstract

A novel approach to the fully automated, unsupervised extraction of dependency grammars and associated syntax-to-semantic-relationship mappings from large →

automated extraction dependency grammars syntax-to-semantic-relationship mappings text corpora natural language comprehension

发现论文，激发创造

无需大量监督即可出现语法

本文探讨如何在没有专门的句法指导的语料库中从语料学习句法的可行性，以语料库的观察结构为基础，通过定义和隔离语法和意义 / 语用学信息，我们描绘了自主语法的形式特征，并展示了通过简单的优化过程搜索基于语法的词汇类别，而无需对模型形式做任何先验假设的可能性。

May, 2020

规则增强的无监督短语结构句法分析

该研究提出了一种基于语法规则的非监督句法树生成方法，利用了语言的通用语法知识，采用强化学习和自编码器等技术，在 MNLI 和 WSJ 两个基准数据集上实现了最好的结果。

May, 2021

自动提取语法知识对 L2 语言学习的教师感知

本研究介绍了一个自动框架，旨在通过自动发现和可视化语法的不同方面来促进语言教学，其中从自然语料库中提取描述单词排序、一致性、语法标记或词形成及词汇学习的描述，并显示例证。作者在印度语言 Kannada 和 Marathi 上应用此方法，以评估其实用性，并邀请北美的语言教育家对这些语言进行手动评估。教师们认为这些材料有趣，可以用作自己的课程准备或学习者评估的参考资料。

Jun, 2022

L2 语言学习的自动提取语法概念的教师感知

通过自动发现和可视化语法描述，本研究旨在帮助语言教育专家自动创建材料，以便教授印度语言中的语法和语义知识。

Oct, 2023

基于图形半监督学习的形态句法词典生成

本文介绍了一种基于图的半监督学习方法，利用单词之间的形态、句法和语义关系，从种子集合自动构建广覆盖的词汇表。该方法不受语言约束，可用于 11 种语言，并可通过提供的自动创建词汇表提高词汇标记和依存解析的性能。

Dec, 2015

基于链接语法的语言模型无监督训练

本文探讨了基于链接语法的图形语言模型的无监督训练所需的条件，提出了一种统计链接语法形式，允许进行统计语言生成，并说明了传统的基于词组的无监督语言学习方法依赖于大量上下文信息的缺陷。

Aug, 2022

跨语言和语法下预训练模型的评估

我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法，将分析转化为序列标记，通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们，结果表明：（i）该框架在多种编码上一致，（ii）预先训练的词向量不偏好成分句法表示，而是倾向于依赖表示，（iii）子词标记化需要用于表示语法，与基于字符的模型不同，（iv）从词向量中恢复语法时，语言在预训练数据中的出现比任务数据的数量更重要。

Sep, 2023

用于解析器评估的语料库标注

通过语料库标注方案与英文文本标注，我们描述了一种避免当前方法的缺点的解析器评估方法，并展示了该语料库如何用于评估健壮的解析器，以及与现有资源的关系。

Jul, 1999

无监督语言习得：理论与实践

本论文研究了无监督机器学习在自然语言方面的应用，提出了三种新算法，旨在考察 “刺激贫乏” 问题以验证人类是否具有特定内在语言知识，最终得出刺激贫乏论不受证据支撑的结论。

Dec, 2002

语义角色跨语言转移：从原始文本到语义角色

使用基于注释投影的转移方法，开发了一种基于依赖关系的语义角色标注系统，在只有平行数据可用的语言中，不需要其他监督的语言信息。相比之前的工作，我们只使用了词和字符特征来避免使用监督的特征。我们的深度模型考虑使用基于字符的表示以及无监督的词干嵌入来减轻对监督特征的需求。我们的实验在通用命题库的 7 种语言中有 6 种优于使用监督词汇 - 句法特征的最先进方法。

Apr, 2019