从大型(未标注)语料库中学习语言
本文探讨如何在没有专门的句法指导的语料库中从语料学习句法的可行性,以语料库的观察结构为基础,通过定义和隔离语法和意义 / 语用学信息,我们描绘了自主语法的形式特征,并展示了通过简单的优化过程搜索基于语法的词汇类别,而无需对模型形式做任何先验假设的可能性。
May, 2020
该研究提出了一种基于语法规则的非监督句法树生成方法,利用了语言的通用语法知识,采用强化学习和自编码器等技术,在 MNLI 和 WSJ 两个基准数据集上实现了最好的结果。
May, 2021
本研究介绍了一个自动框架,旨在通过自动发现和可视化语法的不同方面来促进语言教学,其中从自然语料库中提取描述单词排序、一致性、语法标记或词形成及词汇学习的描述,并显示例证。作者在印度语言 Kannada 和 Marathi 上应用此方法,以评估其实用性,并邀请北美的语言教育家对这些语言进行手动评估。教师们认为这些材料有趣,可以用作自己的课程准备或学习者评估的参考资料。
Jun, 2022
本文介绍了一种基于图的半监督学习方法,利用单词之间的形态、句法和语义关系,从种子集合自动构建广覆盖的词汇表。该方法不受语言约束,可用于 11 种语言,并可通过提供的自动创建词汇表提高词汇标记和依存解析的性能。
Dec, 2015
本文探讨了基于链接语法的图形语言模型的无监督训练所需的条件,提出了一种统计链接语法形式,允许进行统计语言生成,并说明了传统的基于词组的无监督语言学习方法依赖于大量上下文信息的缺陷。
Aug, 2022
我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法,将分析转化为序列标记,通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们,结果表明:(i)该框架在多种编码上一致,(ii)预先训练的词向量不偏好成分句法表示,而是倾向于依赖表示,(iii)子词标记化需要用于表示语法,与基于字符的模型不同,(iv)从词向量中恢复语法时,语言在预训练数据中的出现比任务数据的数量更重要。
Sep, 2023
本论文研究了无监督机器学习在自然语言方面的应用,提出了三种新算法,旨在考察 “刺激贫乏” 问题以验证人类是否具有特定内在语言知识,最终得出刺激贫乏论不受证据支撑的结论。
Dec, 2002
使用基于注释投影的转移方法,开发了一种基于依赖关系的语义角色标注系统,在只有平行数据可用的语言中,不需要其他监督的语言信息。相比之前的工作,我们只使用了词和字符特征来避免使用监督的特征。我们的深度模型考虑使用基于字符的表示以及无监督的词干嵌入来减轻对监督特征的需求。我们的实验在通用命题库的 7 种语言中有 6 种优于使用监督词汇 - 句法特征的最先进方法。
Apr, 2019