神经单词对齐的第三方对齐器
本研究提出一种自监督的单词对齐模型 - Mask-Align,该模型利用目标序列上的完整上下文,在进行两步的处理,同时采用一种叫做漏洞关注 (leaky attention) 的注意力变体,对于特殊符号如句号,该变体有助于缓解跨项权重过高的问题,各项结果显示,该模型的性能优于以前的无人监督神经对齐器,同时取得了新的最优结果。
Dec, 2020
该研究探讨了使用去噪词对齐作为新的跨语言预训练任务的方法,通过在双语对中进行自我标注的单词对齐,结合指针网络来预测清理片段中被屏蔽的单词及其在另一种语言中的对应单词,并在期望值最大化的方式下交替进行两个步骤,实验结果表明该方法在各种数据集上提高了跨语言可传递性。
Jun, 2021
该论文探讨了一种嫁接预训练语言模型和平行文本的方法来提高单词对齐质量的方法,提出了从这些微调模型中有效提取对齐信息的新方法,并证明了它们在五种语言对上优于之前的最先进模型,还演示了开源的具备预训练模型的 AWESOME 单词嵌入式多语言编码对齐器的实际性能
Jan, 2021
提出一种基于多语言预训练模型的词语对齐方法,通过在浅层中利用共享的自注意力模块,将源语句和目标语句单独编码,而在较高层通过交叉注意力模块显式地构建跨语言交互,达到提高词语对齐质量的效果。通过采用两阶段训练框架,实现对模型的有效训练,实验结果在五对语言中有四对的性能达到了最新水平。
Oct, 2022
本研究提出了一种基于神经网络的简单的词对齐模型,使用源和目标语窗口表示,计算句子对之间的对齐分数,并使用聚合操作来确定目标词的对齐得分。通过使用软边距目标,该模型能够提高真正的目标词的分数,降低不存在的目标词的分数,并在英捷克、罗马尼亚 - 英语和英法对齐上比 Fast Align 模型提高 7、6 和 1.7 AER 对齐准确性。
Jun, 2016
本文提出了一种基于跨语言跨度预测的新型监督词对齐方法,使用基于多语言 BERT 的 SQuAD v2.0 风格问答任务解决了此问题,并在中英、日、德、罗、法等五个词对齐数据集上实验证明,该方法显著优于以前的监督和非监督方法,而无需使用双语语料进行预训练。
Apr, 2020
本文提出了第一个端到端的神经单词对齐方法,将一个训练有素的 Transformer 模型重新用于无监督的单词对齐模型,与已有的最佳的单词对齐工具 GIZA++ 相比,其在三个数据集中表现更加优异。
Apr, 2020
WSPAlign 是一个有效的预训练单词对齐算法,可通过大规模的弱监督数据进行训练,无需手动数据标注,并实现了与当前方法竞争的结果,尤其对于低资源语言而言表现出潜在的实用性。
Jun, 2023
本文提出利用训练句子对齐来提高神经机器翻译的关注或对齐准确性,通过将机器关注与 “真实” 对齐之间的距离计算,并在训练过程中最小化此代价,我们的实验证明,相对于大型词汇神经机器翻译系统,我们的模型显著提高了翻译和对齐质量,超越了最先进的传统基于语法的系统。
Jul, 2016