神经单词对齐的第三方对齐器

EMNLPNov, 2022

Third-Party Aligner for Neural Word Alignments

Jinpeng Zhang, Chuanqi Dong, Xiangyu Duan, Yuqi Zhang, Min Zhang

TL;DR本文提出使用第三方词对齐器生成的单词对齐来监督神经单词对齐训练，在微调预训练的跨语言语言模型时，目标是让每个单词对的源语言单词和目标语言单词在情境化的嵌入空间中成为彼此相邻的接近邻居，实现自我训练并在各种语言对的基准测试中获得最先进的单词对齐性能。

Abstract

word alignment is to find translationally equivalent words between source and target sentences. Previous work has demonstrated that self-training can achieve competitive →

word alignment self-training neural word alignment training third-party word aligned cross-lingual language model

发现论文，激发创造

Mask-Align: 自监督神经词对齐

本研究提出一种自监督的单词对齐模型 - Mask-Align，该模型利用目标序列上的完整上下文，在进行两步的处理，同时采用一种叫做漏洞关注 (leaky attention) 的注意力变体，对于特殊符号如句号，该变体有助于缓解跨项权重过高的问题，各项结果显示，该模型的性能优于以前的无人监督神经对齐器，同时取得了新的最优结果。

Dec, 2020

通过自标注的词对齐改进预训练的跨语言语言模型

该研究探讨了使用去噪词对齐作为新的跨语言预训练任务的方法，通过在双语对中进行自我标注的单词对齐，结合指针网络来预测清理片段中被屏蔽的单词及其在另一种语言中的对应单词，并在期望值最大化的方式下交替进行两个步骤，实验结果表明该方法在各种数据集上提高了跨语言可传递性。

Jun, 2021

通过微调平行语料库中的嵌入来进行单词对齐

该论文探讨了一种嫁接预训练语言模型和平行文本的方法来提高单词对齐质量的方法，提出了从这些微调模型中有效提取对齐信息的新方法，并证明了它们在五种语言对上优于之前的最先进模型，还演示了开源的具备预训练模型的 AWESOME 单词嵌入式多语言编码对齐器的实际性能

Jan, 2021

Cross-Align: 模拟深层跨语言相互作用以进行单词对齐

提出一种基于多语言预训练模型的词语对齐方法，通过在浅层中利用共享的自注意力模块，将源语句和目标语句单独编码，而在较高层通过交叉注意力模块显式地构建跨语言交互，达到提高词语对齐质量的效果。通过采用两阶段训练框架，实现对模型的有效训练，实验结果在五对语言中有四对的性能达到了最新水平。

Oct, 2022

基于神经网络的词对齐通过评分聚合

本研究提出了一种基于神经网络的简单的词对齐模型，使用源和目标语窗口表示，计算句子对之间的对齐分数，并使用聚合操作来确定目标词的对齐得分。通过使用软边距目标，该模型能够提高真正的目标词的分数，降低不存在的目标词的分数，并在英捷克、罗马尼亚 - 英语和英法对齐上比 Fast Align 模型提高 7、6 和 1.7 AER 对齐准确性。

Jun, 2016

基于多语言 BERT 的跨语言跨度预测监督式词对齐方法

本文提出了一种基于跨语言跨度预测的新型监督词对齐方法，使用基于多语言 BERT 的 SQuAD v2.0 风格问答任务解决了此问题，并在中英、日、德、罗、法等五个词对齐数据集上实验证明，该方法显著优于以前的监督和非监督方法，而无需使用双语语料进行预训练。

Apr, 2020

端到端神经单词对齐优于 GIZA++

本文提出了第一个端到端的神经单词对齐方法，将一个训练有素的 Transformer 模型重新用于无监督的单词对齐模型，与已有的最佳的单词对齐工具 GIZA++ 相比，其在三个数据集中表现更加优异。

Apr, 2020

WSPAlign：基于大规模弱监督跨度预测的单词对齐预训练

WSPAlign 是一个有效的预训练单词对齐算法，可通过大规模的弱监督数据进行训练，无需手动数据标注，并实现了与当前方法竞争的结果，尤其对于低资源语言而言表现出潜在的实用性。

Jun, 2023

神经机器翻译的监督注意力

本文提出利用训练句子对齐来提高神经机器翻译的关注或对齐准确性，通过将机器关注与 “真实” 对齐之间的距离计算，并在训练过程中最小化此代价，我们的实验证明，相对于大型词汇神经机器翻译系统，我们的模型显著提高了翻译和对齐质量，超越了最先进的传统基于语法的系统。

Jul, 2016

非对抗式无监督单词翻译

本文介绍了一种基于迭代匹配方法的无监督单词翻译方法，该方法在欧洲和非欧洲语言单词翻译任务中表现优于最新的深度对抗方法，并且具有可解释性。

Jan, 2018