爪哇语依存分析的跨语言迁移学习
本文提出了一种简单而有效的方法,可以在没有大量翻译数据的情况下进行跨语言的句法转移,这种方法基于三个步骤:1)推导跨语言单词簇的方法,可用于多语言解析器;2)将目标语言的词汇信息转移到源语言树库;3)将这些步骤与 Rasooli 和 Collins(2015)的密度驱动注释投影方法相结合。该方法在多个语言中实现了针对先前工作的最新进展,在只使用比利时圣经作为翻译数据的情况下,与以前的工作相比,Europarl 语料库的结果表现出额外的提升。最后,作者在通用依赖语料库的 38 个数据集上进行了结果展示。
Oct, 2016
本文针对源语言和目标语言单词顺序的不同问题,提出了一种基于 “圣经” 语料库和跨语言词表示的依存句法跨语言迁移方法。该方法在训练前改变源语言语料的顺序,使得在欧洲语系以外的语言中达到更高的精度。在多语言数据集上,该方法在 68 个树库(38 种语言)的实验中表现良好,并在 12 种非欧洲语言的 16 个树库中实现了 3.3%的平均 UAS 绝对精度提高。
Mar, 2019
本研究采用来自多任务学习的自动课程学习方法,旨在动态优化对于语法分析模型下游任务的性能,从而实现在低资源语言中的零样本情况下的跨语言迁移,表明这种方法比均匀和大小成比例采样更好。
Mar, 2022
本文研究在少量训练数据的情况下,如何通过数据增强、跨语言训练和转写等策略提高处理低资源语言的分析器性能。在三种语言的实验中,发现数据增强和跨语言训练都能提高性能,而将高资源语料库中的字母转写成共享的拼写规则也很有帮助。
Sep, 2019
本文中提出采用对抗性训练从辅助语言中提取无标注句子帮助学习跨语言不变表示,进而用于跨语言转移,通过实验证明,对抗性训练能有效提高依存句法分析的跨语言性能。
Sep, 2019
本篇论文研究了是否可以利用大规模多语言语料库(multilingual BERT)上预训练的现成双向深度句子表征,开发出一种无监督的通用句法分析器,以支持低资源语言的处理。实验结果表明,我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统,但仍存在一些限制,如句法分析精度仍然随训练语言的变化而变化,并且在某些目标语言中,零 - shot 转移在所有测试条件下都无法成功,这引发了人们对整个方法的普适性问题的担忧。
Oct, 2019
本文介绍了在半监督下对自然语言句子进行解析的工作,重点是去除词汇的依赖关系解析器的多源跨语言转移。首先,评估了树库注释风格对解析性能的影响,重点是介词附着风格。然后,我们提出了 KLcpos3,一种经验性的语言相似度测量方法,专门用于多源去词汇解析器转移中源解析器加权。最后,基于训练解析器模型的插值,引入了一种新的资源组合方法。
Jun, 2015
本文提出了一种基于无监督自我训练并采用多语言输入编码的无监督跨语言转移方法,可用于低资源语言依赖解析。该方法在不接触源语言数据、同时支持多源转移、支持非投影解析的前提下,接受任何预训练弧分解依赖分析器,并且相比于传统的直接转移方法,能够显著提高跨语言转移的准确性。
Jan, 2021
本研究针对资源匮乏的语言环境下,针对高度分析形态的自然语言(MRLs)的依赖句法分析任务,提出了预训练的简单辅助任务方法,实验结果表明,提出的方法使得在 10 种低资源语言环境下实验得到了稳定的提高
Feb, 2021
本文提出了一种生成模型,通过结构化的正则先验利用标记源数据和未标记目标数据联合学习源模型和目标模型的参数来解决在距离较远的语言之间跨语言迁移的问题,并使用可逆投影来学习一种新的公共嵌入空间,以对不完美的跨语言词嵌入输入进行补偿。该方法在使用英语作为唯一源语料库并传输到广泛的目标语言的通用依赖树库上进行评估,在与英语相距较远的该数据集中的 10 种语言中,我们的方法相较于使用最先进的判别模型的直接转移方法,在词性标注和依赖分析方面分别获得了平均 5.2%和 8.3%的绝对改善。
Jun, 2019