无监督通用依存树聚合的实证分析
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外,作者还提出了一种新的方法来精简基于转换的解析器的集合,并在真实情况下验证了该方法的有效性。
Apr, 2018
该论文介绍了 Stanford 的 CoNLL 2018 UD 共享任务中的系统,这是一个完整的神经管道系统,可以将原始文本作为输入,并执行共享任务所需的所有任务,从分词和句子分割到词性标注和依赖关系解析,并通过广泛的消融研究展示了不同的模型组件的有效性。
Jan, 2019
通过依存句法分析技术,我们在低资源语言乌尔都语的解析中取得了重要进展,并使用复杂的特征模型和 Nivreeager 算法,获得了一定准确率并评估了解析器的错误。
Jun, 2024
我们研究了无监督的成分句法分析任务,该任务将句子中的单词和短语组织成层次结构,而不使用语言学注释数据。我们观察到现有的无监督解析器捕捉了句法结构的不同方面,可以利用这些方面来提高无监督解析的性能。为此,我们提出了 “树平均” 方法,并进一步提出了一种新颖的无监督解析集成方法。为了提高推理效率,我们将集成的知识进一步融入到一个学生模型中;这种先集成后蒸馏的过程是缓解常见多老师蒸馏方法中存在的过度平滑问题的一种有效方法。实验证明,我们的方法超过了所有先前的方法,始终表现出其在各种运行,不同的集成组件和领域转移条件下的有效性和鲁棒性。
Oct, 2023
本文提出一种新的学习策略,该策略基于双重分解方法,联合学习生成模型和判别模型,有效提高了它们的学习结果,并在 UD 树库上取得了 30 种语言的最新成果。
Aug, 2017
介绍了 Uppsala 系统,它是一个由三个部分构成的流水线,可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型,我们极大地减少了模型数量,最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。
Sep, 2018
本文重新审视了 Cer 等人(2010)提出的一个问题:在获得 Stanford 依赖性方面,准确性与速度之间的权衡是什么?我们还探讨了输入表示对这种权衡的影响:词性标记、替代依赖性表示作为输入以及单词的分布表示。我们发现,直接依赖解析是一种比过去更可行的解决方案。
Apr, 2014
本文使用 Shen 等人 (2018) 的句法分析算法来恢复基于 “句法深度” 代理的短语结构树,并使用常规 LSTM 语言模型提供的代理进行比较,发现偏向于右分支结构的解析算法可以夸大语言模型的表现能力。
Sep, 2019