具有非局部特徵的對比式無監督詞彙對齊
本文研究了将在多种语言中学习到的连续单词表示对齐到一个共同空间的问题,并提出了一种新的方案来保证映射的组合性,从而在维持直接单词翻译的竞争性表现的同时,实现了间接单词翻译的更好对齐。
Nov, 2018
本研究采用密度匹配和密度建模的方法进行多语种词向量的对齐,提出基于 Normalizing Flow 的 Real-NVP 和 GAN-Real-NVP 两种监督学习和无监督学习的密度对齐方法,并通过验证标准来指导训练过程。实验结果表明,我们的方法在有限或没有平行数据的情况下均能显著提高多项 NLP 任务的表现。
Jan, 2022
本研究提出一种自监督的单词对齐模型 - Mask-Align,该模型利用目标序列上的完整上下文,在进行两步的处理,同时采用一种叫做漏洞关注 (leaky attention) 的注意力变体,对于特殊符号如句号,该变体有助于缓解跨项权重过高的问题,各项结果显示,该模型的性能优于以前的无人监督神经对齐器,同时取得了新的最优结果。
Dec, 2020
采用不监督的方式对一本书的全文与人工撰写的摘要进行对齐,通过使用基于隐马尔科夫模型的两种新方法来解决长度差异的问题,并在抽取式书籍摘要任务上取得了一定的效果。尽管还有很大的提升空间,但无监督对齐在提供哪些书籍特征值得总结方面具有内在价值。
May, 2013
本文旨在提出一种新的基于正交矩阵和置换矩阵联合估计的点集对齐算法,并应用在自然语言处理和计算机视觉领域的单语数据的无监督单词翻译问题中,实现了比竞争对手更先进效果却需要更少的计算资源
May, 2018
该论文探讨了一种嫁接预训练语言模型和平行文本的方法来提高单词对齐质量的方法,提出了从这些微调模型中有效提取对齐信息的新方法,并证明了它们在五种语言对上优于之前的最先进模型,还演示了开源的具备预训练模型的 AWESOME 单词嵌入式多语言编码对齐器的实际性能
Jan, 2021
本文提出了一种利用非单调潜在对齐的方法,扩展非自回归翻译模型的非单调对齐空间,进一步考虑与目标句子重叠的所有对齐,并训练潜在对齐模型以最大化非单调匹配的 F1 分数,从而提高 CTC-based 模型的翻译性能,最佳模型在 WMT14 En-De 上实现了 30.06 BLEU 的性能表现。
Oct, 2022
本研究提出了一种基于神经网络的简单的词对齐模型,使用源和目标语窗口表示,计算句子对之间的对齐分数,并使用聚合操作来确定目标词的对齐得分。通过使用软边距目标,该模型能够提高真正的目标词的分数,降低不存在的目标词的分数,并在英捷克、罗马尼亚 - 英语和英法对齐上比 Fast Align 模型提高 7、6 和 1.7 AER 对齐准确性。
Jun, 2016