- 通过通用依存语法镜头观察德拉维达语系
该研究论文探讨了通用依存分析项目的跨语言一致性依存标注,以及针对达拉维安语系的形态和句法特征如何在通用依存分析框架中进行标注。
- COLINGUCxn: 对通用依存结构之上的构式进行类型分析的标注
通过在 UD 注释上加入一个 'UCxn' 注释层并且在典型性知识的指导下,我们将构建类型说法可以跨语言进行比较的 UD 注释,同时为未来的 UD 树库提供了建设的基础。
- COLINGMaiBaam:一个多方言的巴伐利亚通用依存树库
我们提出了第一个多方言巴伐利亚树库(MaiBaam),通过 UD 手动标注了词性和句法依赖信息,涵盖多个文本流派,突出了巴伐利亚语和德语之间的形态句法差异,并展示了说话者拼写的丰富变化。我们的语料库包括 15k 个标记,涵盖了三个国家 Ba - 多语言 BERT 对鄂图曼土耳其语的依赖注释
使用预先训练的大型语言模型进行注释方法的研究,针对奥斯曼土耳其语第一个依赖树库。实验结果表明,通过迭代使用多语言 BERT 解析模型进行伪标注数据,手动纠正伪注释以及使用纠正的注释对解析模型进行微调,我们加快了并简化了具有挑战性的依赖注释过 - EMNLP通过子树感知词重排序来提高跨语言迁移
使用依赖通用模式的强大重排序方法,能从少量的标注数据中学习到依赖语法上下文的精细词序模式,并在所有语法树的层级上应用,通过实验验证在零样本和少样本场景下相比强基准模型始终有优势。
- 墨西哥旅游文本情感分析的无监督基于规则的 UD 适应实验
这篇论文总结了一个基于通用依存分析(Universal Dependencies)适应无监督、组合和递归(UCR)基于规则的情感分析(Sentiment Analysis)方法的实验结果,通过应用基本的句法规则和情感词典来利用无监督方法的优 - ACLMasakhaPOS: 面向具有语言学多样性的非洲语言的词性标注
本文提出了 MasakhaPOS 数据集,并利用条件随机场、多语言预训练语言模型、跨语言传递模型以及交叉语言参数高效微调等方法来解决非常规非洲语言的词性标注问题。实验结果表明,选择最佳的传递语言可显著提高目标语言的 POS 标注性能,特别是 - 深度句法关系的统一分类
本文旨在通过对多种深层句法框架的分析,提出一组通用的语义角色标签建议,并将其应用于语言数据。建议基于多种理论语言观点,主要聚焦于 Meaning-Text Theory 和 Functional Generative Description - 英语 UD 的报告卡:UD Treebank 是否更加一致?
探讨在 UD 英语树库的数据整合方面的进展和重要性,发现虽然数据整合取得了一定的进展,但联合训练仍可能受到不一致性的影响,从而影响了其利用更大的训练数据池的能力。
- EMNLP弱监督标题依赖关系分析
通过提供第一个标记有语法依存树的通用语言标题新闻语料库,我们旨在弥补语言处理句法分析领域对新闻标题的关注不足。通过从未标记的新闻标题 - 文章引文对中获取银标签训练数据来改进英语新闻标题的分析准确性,我们发现训练基于银标题解析的模型比仅基于 - COLING另一种针对韩语的通用依存关系格式
本研究提出了基于单词形态的韩语句法分析方案,并将其应用于通用依存结构。我们开发了自动转换脚本,证明了该方案与韩语单词嵌入的高效性,并通过统计和神经模型证明了该方案的有效性。
- 在课堂中建立濒危语言资源:Kakataibo 的通用依赖
本文介绍了一种用于已濒危语言 ——Kakataibo 建立 Universal Dependencies treebank 的方法。作者采用合作式的方法,先讨论了此举的可行性,然后介绍了 treebank 的说明和特征,并对语料库进行了研究 - 为 Magahi 和 Braj 开发通用依存树库
本文介绍了基于通用依存关系框架为 Magahi 和 Braj 两种低资源印度语言开发的 treebanks,包含 945 个 Magahi 句子和约 500 个 Braj 句子,标注他们的词形、词性、形态学特征和通用依存关系,描述了这两种语 - AAAI基于句间依存图的零 - shot 跨语言机器阅读理解
通过引入 Universal Dependencies 中的句法特征,特别是句子内的句法关系和句子间的句法关系,从而建立一个跨语言的 Inter-Sentence 依存图,并提出了一个 ISDG 编码器,能在无需跨语言训练的情况下显著提高零 - EMNLP关于句法差异与零 - shot 表现之间的关系
本文研究在翻译过程中保留句法关系的程度与零样本情况下正确构造解析树的难度之间的联系,通过将 Universal Dependencies 从英语传输到不同的语言进行测试,结果表明跨语稳定性与零样本解析性能之间存在强烈的关联。
- ACL依赖句法分析中的句法核心 -- 多语言探索
本研究旨在使用核心概念对语法依存分析进行改进,并探讨将核心概念结合到框架中的方法。通过实验,研究得出使用核心概念可以在依存分析准确性方面带来小但显著的改进,主要针对少数依赖关系,包括名词修饰语、协调关系、主谓关系和直接宾语等。
- IWPT 2020 共享任務中的 ADAPT 增強依存分析器
该论文介绍了 ADAPT 系统参加 2020 年 IWPT 共享任务的解析增强通用依存关系的方法,采用 UDPipe 和 UDPipe-future 构建管道方法,使用语义依存图解析器或一系列启发式规则来增强依存图,并在语言平均值方面达到了 - ACL神经语言模型是否显示对句法形式的偏好?
研究深度神经语言模型的可解释性,通过在多种语言模型中应用基于深度句法和表层句法的分析方法,考察其对语法结构的捕获程度以及不同语言间的一致性关系,并发现该语言模型普遍倾向 “Universal Dependencies” 语法形式,并且这种倾 - 通用依存关系 v2:一个不断增长的多语言树库集合
该研究介绍了 Universal Dependencies 的第二个版本,其中包括词汇分析、词形还原、标准化标记和句法关系,适用于 90 种语言,以及主要变化(UD v1 到 UD v2)的讨论。
- Turkish 依赖解析资源:介绍 BOUN Treebank 和 BoAT 标注工具
本文介绍我们开发的用于土耳其语依存分析的资源,这些资源包括新型的手动标注树库(BOUN Treebank)、我们采用的指南以及一个新的标注工具(BoAT)。我们采用的手动标注过程是由四名语言学家和五名自然语言处理专家组成的团队塑造和实施的。