使用异构树库进行的解析器训练
本文提出了一种基于多任务学习的通用框架,将多类型树库结合起来,通过多级参数共享提高依存解析模型的性能,实验表明该方法可以有效地利用任意源树库来提高目标解析模型的性能。
Jun, 2016
使用多语言模型进行依赖解析,通过使用多语言单词聚类和嵌入,令解析器能够在多种语言中进行有效解析,同时基于语言普遍规律和类型相似性实现跨语言推断,从而使其能够更有效地从有限的注释中进行学习。
Feb, 2016
通过引入预测句子 treebank 向量的方法以及探索在测试时移离预定义的 treebank 嵌入向量并设计 tailored 的插值方法,本研究在 monolingual dependency parsing 领域对 treebank embedding vector 的进一步改进进行了研究,并表明插值向量优于预定义的向量,对于十种语言中的九种测试语言,可以预测 treebank 向量以匹配 oracle 方法的性能。
May, 2020
本文提出在多语种低资源场景下采用语言特定的预训练和词汇扩充以适应多语种模型并使用所提出方法对四种语言进行案例研究,结果显示这些方法可以显著提高性能,特别是在最低资源的情况下,并证明了模型的预训练数据与目标语言变体之间的关系的重要性。
Sep, 2020
研究了树库选择对解析评估的影响,发现使用单个树库子集进行评估可能会导致不准确的结论。实验发现,树库选择具有很大的变异性,虽然确定良好的树库选择指南很困难,但可以检测出潜在的有害策略。
Sep, 2022
本文描述了我们的系统(HIT-SCIR),该系统提交给 CoNLL 2018 共享任务,涉及从原始文本到通用依赖的多语言解析。我们基于斯坦福的获胜系统进行提交和进行了两个有效的扩展:1)将深度上下文化词嵌入到词性标记器和解析器中;2)集合使用不同初始化的解析器进行训练。我们还探索了不同的合并树库的方法以进行进一步的改进。开发数据上的实验结果显示了我们方法的有效性。在最后的评估中,我们的系统在 LAS(75.84%)上排名第一,并大幅跑赢了其他系统。
Jul, 2018
该研究探讨了使用代码混合的方式进行多语言句法依存关系知识传递的方法,并利用跨语言词向量在目标语言中转移句法知识的效果,结果显示代码混合的方法比传统的翻译方式更加有效。
Sep, 2019
本研究比较了两种半监督学习技术,即 tri-training 和预训练词嵌入,在依存句法分析任务中的表现。研究探讨了语言特定的 FastText 和 ELMo 嵌入以及多语言 BERT 嵌入,并选择了匈牙利语、维吾尔语和越南语等语言进行研究。结果表明,预训练词嵌入比 tri-training 更有效地利用了未标记数据,但这两种方法可以成功地结合使用。
Sep, 2021
本文提出了一种有效且资源占用较少的策略来解析混合编码数据,利用现有的单一语言标注资源进行训练,相比专业领域的方法,这些方法可以取得显着更好的结果。同时,我们还提供了一个包含 450 个印地文和英文编码混合推文数据集及其通用依存分析标注结果,用于评估这些方法。
Mar, 2017
通过依存句法树到常量句法树的转换,使用递归神经网络语法模型(RNNGs)进行训练,并在多语言环境下进行了实证评估,来探讨在学习模型时哪种树形式最佳,对哪些语言最适用,并通过七种类型的句法测试比较了 9 种转换方法和 5 种语言的语言模型表现,研究结果显示,最佳模型相对于最差模型在所有语言中的精确度提高了 19%,也证明了在多语言环境中注入语法的积极作用。
Apr, 2022