XAlign:面向低资源语言的跨语言事实到文本对齐与生成
利用URL标签指导对网络文章进行跨语言文档对齐,构建了一个大规模的网络文档数据集,使用该数据集通过基线模型进行文本内容的对齐,最终通过挖掘平行语句和测量基于挖掘数据训练的模型的机器翻译质量来证明了数据集的价值,旨在促进跨语言NLP研究的发展。
Nov, 2019
本文介绍了一种名为XeroAlign的简单方法,用于任务特定的交叉语言预训练变形器的对齐。 使用翻译的任务数据鼓励模型为不同的语言生成类似的句子嵌入,从而实现了在多个跨领域的自然语言理解任务上的最新零-shot结果,称为 XLM-RA,其文本分类准确性超过使用标记数据训练的XLM-R,并在跨语言针对性改写任务上表现出与最先进模型相当的性能。
May, 2021
本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素,并使用BERT和BiLSTM模型和《圣经》作为语料库进行了比较分析,结果表明,词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。
Sep, 2021
本论文提出了跨语言机器自动事实到文本生成的方法,使用包括 BERT 和 GPT-2 在内的 Transformer-based 模型和多语言数据集 XALIGNV2,得到了优秀的结果。
Sep, 2022
提出一种基于多语言预训练模型的词语对齐方法,通过在浅层中利用共享的自注意力模块,将源语句和目标语句单独编码,而在较高层通过交叉注意力模块显式地构建跨语言交互,达到提高词语对齐质量的效果。通过采用两阶段训练框架,实现对模型的有效训练,实验结果在五对语言中有四对的性能达到了最新水平。
Oct, 2022
本文提出了一种实体级别的语言混合方法(EntityCS),不仅可以避免语法错误,还可以提高四个实体中心下游任务的性能,在Fact Retrieval任务上最高可达10%。
Oct, 2022
本文旨在探寻现代对齐器在未知语言上的表现,并且通过两个下游任务对其结果进行了外部验证,发现尽管基于转换器的方法通常优于传统模型,但这两种方法仍然在技术上互相竞争。
Feb, 2023
通过利用翻译句子对齐内部句子表示,并通过回答不同语言的提示问题对齐模型输出,我们提出了一个简单而有效的对齐框架,显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明,它导致了更好的多语言模型的内部多语言表示分布。
Nov, 2023
跨语言句子嵌入领域最近取得了很大的进展,但是由于平行语料的稀缺性,对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题,我们引入了一种新的框架,通过使用现成的词对齐模型,显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标:对齐的单词预测、单词翻译排序,以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法,该方法在低资源语言的句子嵌入上取得了显著的改进。此外,所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。
Apr, 2024
基于对有关预先令牌指导跨语言生成的依赖性的重要洞察,我们提出了一种名为 PreTTY 的新型无需训练的对齐方法,用于在基础 LLM 和 SFT LLM 之间建立桥梁,以实现可比较的性能。在八种语言上进行的机器翻译和词性标注实验表明,PreTTY 在跨语言环境中具有很高的效能。这种方法是 SFT 的一种经济高效的替代方案,推动了多语言 LLM 的民主化。
Apr, 2024