使用混合编码树库进行跨语言依存分析
本文提出了一种简单而有效的方法,可以在没有大量翻译数据的情况下进行跨语言的句法转移,这种方法基于三个步骤:1)推导跨语言单词簇的方法,可用于多语言解析器;2)将目标语言的词汇信息转移到源语言树库;3)将这些步骤与 Rasooli 和 Collins(2015)的密度驱动注释投影方法相结合。该方法在多个语言中实现了针对先前工作的最新进展,在只使用比利时圣经作为翻译数据的情况下,与以前的工作相比,Europarl 语料库的结果表现出额外的提升。最后,作者在通用依赖语料库的 38 个数据集上进行了结果展示。
Oct, 2016
本文提出了一种有效且资源占用较少的策略来解析混合编码数据,利用现有的单一语言标注资源进行训练,相比专业领域的方法,这些方法可以取得显着更好的结果。同时,我们还提供了一个包含 450 个印地文和英文编码混合推文数据集及其通用依存分析标注结果,用于评估这些方法。
Mar, 2017
本文提出了一种基于多任务学习的通用框架,将多类型树库结合起来,通过多级参数共享提高依存解析模型的性能,实验表明该方法可以有效地利用任意源树库来提高目标解析模型的性能。
Jun, 2016
本文使用双仿射语义依赖分析器、大型预训练语言模型和公开可用的翻译模型解决了结构化情感分析的问题。对于单语言环境,作者考虑了在单个语料库上训练和跨语言模型上下文下训练。对于零样本场景,作者通过单词级别的翻译和合并训练数据来处理目标语料库。在后期评估阶段,作者还训练了交叉语言模型,而不是使用单词级别的翻译,并获得了更好的结果。
Apr, 2022
本文针对源语言和目标语言单词顺序的不同问题,提出了一种基于 “圣经” 语料库和跨语言词表示的依存句法跨语言迁移方法。该方法在训练前改变源语言语料的顺序,使得在欧洲语系以外的语言中达到更高的精度。在多语言数据集上,该方法在 68 个树库(38 种语言)的实验中表现良好,并在 12 种非欧洲语言的 16 个树库中实现了 3.3%的平均 UAS 绝对精度提高。
Mar, 2019
本文研究代码切换数据的句法分析,提出了规范化和反回译模型的解码过程,以及利用词性标注和句法树注释的神经堆叠模型。结果显示,我们的神经叠加分析器比增强分析模型优越 1.5%LAS 点,并且我们的解码过程比第一个最佳规范化和 / 或反回译提高了 3.8%LAS 点。
Apr, 2018
本文提出了一种生成模型,通过结构化的正则先验利用标记源数据和未标记目标数据联合学习源模型和目标模型的参数来解决在距离较远的语言之间跨语言迁移的问题,并使用可逆投影来学习一种新的公共嵌入空间,以对不完美的跨语言词嵌入输入进行补偿。该方法在使用英语作为唯一源语料库并传输到广泛的目标语言的通用依赖树库上进行评估,在与英语相距较远的该数据集中的 10 种语言中,我们的方法相较于使用最先进的判别模型的直接转移方法,在词性标注和依赖分析方面分别获得了平均 5.2%和 8.3%的绝对改善。
Jun, 2019
本研究提出了一种基于图形的端到端神经网络依赖解析器,这种解析器可以训练为复制边缘得分矩阵,从而可以直接在单词对齐上进行投影,并取得了相较于之前的最新技术,在 10 种语言上的 2.25% 的绝对改善。
Jan, 2017
提出一种基于形态学的低资源依存解析方法,在目标低资源语言中训练形态变化器,并将其应用于相关的富资源树库以创建类似于目标低资源语言的跨语言折叠树库。使用这样的折叠树库在零(在折叠的树库上训练)和少量样本(在折叠和目标语言树库上训练)设置中训练解析器。结果表明该方法有时会改善基线,但不是一致的。
May, 2022