使用后期解码技术实现跨语言依存解析在真正低资源语言中的应用
本文提出了一种简单而有效的方法,可以在没有大量翻译数据的情况下进行跨语言的句法转移,这种方法基于三个步骤:1)推导跨语言单词簇的方法,可用于多语言解析器;2)将目标语言的词汇信息转移到源语言树库;3)将这些步骤与 Rasooli 和 Collins(2015)的密度驱动注释投影方法相结合。该方法在多个语言中实现了针对先前工作的最新进展,在只使用比利时圣经作为翻译数据的情况下,与以前的工作相比,Europarl 语料库的结果表现出额外的提升。最后,作者在通用依赖语料库的 38 个数据集上进行了结果展示。
Oct, 2016
零 - shot 跨语言迁移利用多语言 LLMs 已成为一种流行的学习范式,适用于低资源语言没有标记的训练数据。然而,在涉及单词和短语细粒度预测的 NLP 任务中,零 - shot 跨语言迁移学习性能远远落后于有监督的微调方法。因此,通过使用翻译和标签映射来进一步提高性能是很常见的。本文中,我们探索了一种通过限制解码进行标签映射的新方法,克服了先前提到的问题。我们的新方法不仅能保持翻译文本的质量,还具有适用于训练和测试数据的多样性。我们在两个跨语言迁移任务上进行评估,分别是命名实体识别和事件论证抽取,涵盖了 20 种语言。结果表明,我们的方法比现有的基于标记的方法具有更好的性能,并且比依赖于外部词对齐的其他标签映射方法表现更好。
Feb, 2024
本研究探讨了在跨语言依存分析中,语言的语言属性如何进行有效应用,通过使用语义知识等多种语言语料库统计数据对推理过程进行指导,使用拉格朗日松弛和后验正则化等技术来进行推理,实验表明拉格朗日松弛和后验正则化的推理显着提高了 19 个目标语言中的 15 个和 17 个的性能表现,尤其是对于源语言不同的目标语言。
Sep, 2019
本文提出了一种基于无监督自我训练并采用多语言输入编码的无监督跨语言转移方法,可用于低资源语言依赖解析。该方法在不接触源语言数据、同时支持多源转移、支持非投影解析的前提下,接受任何预训练弧分解依赖分析器,并且相比于传统的直接转移方法,能够显著提高跨语言转移的准确性。
Jan, 2021
本文提出一种多任务编码 - 解码模型,通过多语言领域内语料库和英文 - 逻辑形式对标数据,在没有平行语料的情况下完成跨语言的语义解析,模型加强了语言无关编码,显著优于传统基于翻译的算法,有时能与有监督模型的上线媲美。
Apr, 2021
本篇论文研究了是否可以利用大规模多语言语料库(multilingual BERT)上预训练的现成双向深度句子表征,开发出一种无监督的通用句法分析器,以支持低资源语言的处理。实验结果表明,我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统,但仍存在一些限制,如句法分析精度仍然随训练语言的变化而变化,并且在某些目标语言中,零 - shot 转移在所有测试条件下都无法成功,这引发了人们对整个方法的普适性问题的担忧。
Oct, 2019
本文研究不同语言的词序,并假设一个与词序无关的模型将在转移到远程外语时表现更好。通过在英语语料库上训练依赖解析器,并在 30 种其他语言上评估它们的转移性能,我们比较基于递归神经网络(RNN)和修改的自我注意体系结构的编码器和解码器。严格的实验和详细的分析表明,基于 RNN 的架构在传输到接近英语的语言时表现良好,而自我注意的模型具有更好的整体跨语言可转移性并在远程语言上表现特别好。
Nov, 2018
本文提出一种新的序列标注方法,使用显式的去偏置层对跨语言映射的错误进行更正,通过对一个拥有金标准标注和一个拥有投影标注的语料库进行联合学习,在仅有 1000 个金标准标注的情况下,加上更丰富的平行数据,系统在 8 个低资源设置和两个真实低资源语言,马达加斯加语和基尼阿瓦达语方面等于或超过了最先进技术水平。
Jul, 2016
本文中提出采用对抗性训练从辅助语言中提取无标注句子帮助学习跨语言不变表示,进而用于跨语言转移,通过实验证明,对抗性训练能有效提高依存句法分析的跨语言性能。
Sep, 2019
本文研究在少量训练数据的情况下,如何通过数据增强、跨语言训练和转写等策略提高处理低资源语言的分析器性能。在三种语言的实验中,发现数据增强和跨语言训练都能提高性能,而将高资源语料库中的字母转写成共享的拼写规则也很有帮助。
Sep, 2019