UD 希伯来语树库和跨领域分析的第二波
本文描述了我们的系统(HIT-SCIR),该系统提交给 CoNLL 2018 共享任务,涉及从原始文本到通用依赖的多语言解析。我们基于斯坦福的获胜系统进行提交和进行了两个有效的扩展:1)将深度上下文化词嵌入到词性标记器和解析器中;2)集合使用不同初始化的解析器进行训练。我们还探索了不同的合并树库的方法以进行进一步的改进。开发数据上的实验结果显示了我们方法的有效性。在最后的评估中,我们的系统在 LAS(75.84%)上排名第一,并大幅跑赢了其他系统。
Jul, 2018
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外,作者还提出了一种新的方法来精简基于转换的解析器的集合,并在真实情况下验证了该方法的有效性。
Apr, 2018
本文提出了一种有效且资源占用较少的策略来解析混合编码数据,利用现有的单一语言标注资源进行训练,相比专业领域的方法,这些方法可以取得显着更好的结果。同时,我们还提供了一个包含 450 个印地文和英文编码混合推文数据集及其通用依存分析标注结果,用于评估这些方法。
Mar, 2017
本文提出了一种基于多任务学习的通用框架,将多类型树库结合起来,通过多级参数共享提高依存解析模型的性能,实验表明该方法可以有效地利用任意源树库来提高目标解析模型的性能。
Jun, 2016
本文介绍和评估了不同的方法将 Stanford Typed Dependencies (SD) 和 Penn-style 组分树的黄金标准语料库数据转化为最新的英语通用依赖关系 (UD2.2)。结果表明,多种语体下,纯 SD 到 UD 的转换具有高精度,只有 1.5% 的错误率,但如果访问纯语法树之外的注释,如实体类型和指代消解这样的注释,可以进一步提高精度,错误率可以降至不到 0.5%。我们表明,基于成分的转换使用 CoreNLP (自动命名实体识别) 在所有语体中表现不佳,包括在使用黄金成分树时,主要是由于短语语法功能的不充分规范化。
Sep, 2019
本文介绍了一种简单的 UCCA 语义图解析方法,将 UCCA 语义图转换为组成树,使用设计的额外标签作为未来恢复远程边缘和不连续节点的标记,并使用现有的句法分析技术。此系统在七个参与系统中的六个英语 / 德语闭合 / 开放跟踪中排名第一,在第七个跨语言跟踪中,它通过使用英语和德语培训数据的语言嵌入方法,将我们的结果排名第二。
Mar, 2019
探讨在 UD 英语树库的数据整合方面的进展和重要性,发现虽然数据整合取得了一定的进展,但联合训练仍可能受到不一致性的影响,从而影响了其利用更大的训练数据池的能力。
Feb, 2023
本研究旨在评估迁移学习在增强爪哇语的依存解析中的功效。使用了包括爪哇语在内的 100 多种语言的依存树库,提出了两种学习策略:迁移学习和分层迁移学习。结果表明,我们的最佳模型采用了分层迁移学习方法,相比基准模型,UAS 和 LAS 评估指标均提高了 10%。
Jan, 2024
本文针对英语 RST 话语树库,提出了跨语言话语分析方法,并在西班牙语、德语、巴斯克语、荷兰语和巴西葡萄牙语中实验。该方法简单易行且有效,可以帮助更好地理解文件中的信息流和论证结构。
Jan, 2017
本文使用双仿射语义依赖分析器、大型预训练语言模型和公开可用的翻译模型解决了结构化情感分析的问题。对于单语言环境,作者考虑了在单个语料库上训练和跨语言模型上下文下训练。对于零样本场景,作者通过单词级别的翻译和合并训练数据来处理目标语料库。在后期评估阶段,作者还训练了交叉语言模型,而不是使用单词级别的翻译,并获得了更好的结果。
Apr, 2022