关注力带来的信心

Oct, 2017

Confidence through Attention

Matīss Rikters, Mark Fishel

TL;DR本文提出利用注意力分布作为翻译置信度测量的方法，成功地应用到两种不同的翻译系统中，译文 BLEU 值分别提高了 2.22 和 0.99。

Abstract

attention distributions of the generated translations are a useful bi-product of attention-based recurrent neural network translation models and can be treated as soft alignments between the input and output toke

attention distributions recurrent neural networks translation models confidence metrics hybrid translation systems

发现论文，激发创造

神经机器翻译的监督注意力

本文提出利用训练句子对齐来提高神经机器翻译的关注或对齐准确性，通过将机器关注与 “真实” 对齐之间的距离计算，并在训练过程中最小化此代价，我们的实验证明，相对于大型词汇神经机器翻译系统，我们的模型显著提高了翻译和对齐质量，超越了最先进的传统基于语法的系统。

Jul, 2016

使用符合预测分布评估机器翻译质量

本文介绍了一种新的评估机器翻译不确定性的方法，通过同时评估翻译质量并提供可靠的置信度分数来实现。我们的方法利用符合性预测分布来生成具有保证覆盖率的预测区间，意味着对于任何给定的显著性水平，我们可以预期翻译的真实质量得分以 $1-ε$ 的速率落在区间之外。在本文中，我们演示了我们的方法在六种不同的语言对中优于一个简单但有效的基线，从覆盖率和锐度的角度进行评估。此外，我们验证了我们的方法需要数据可交换性假设才能实现最佳性能。

Jun, 2023

基于 Transformer 的神经机器翻译学习自信度

本论文介绍了一个在神经机器翻译中实现置信度估计的方法，通过让 NMT 模型向用户请求 “提示” 来确定置信度，进一步提出了利用置信度的标签平滑方法。实验结果表明，在真实世界的嘈杂和跨领域数据的情况下，该方法可以准确评估潜在的风险。

Mar, 2022

基于不确定性置信度评估的反向翻译优化

本研究通过使用基于不确定性的置信度评估，提出了一种针对噪声性合成双语语料库的反向翻译方法，实验证明该方法显著提高了反向翻译的性能。

Aug, 2019

基于协议的双向注意力神经机器翻译联合训练

通过协商双向翻译模型之间的单词对齐矩阵来优化神经机器翻译的关注机制，并提高翻译质量。

Dec, 2015

给神经机器翻译模型添加可解释的注意力机制改善了单词对齐

提出一种基于 Transformer 架构的简单模型扩展，利用其隐藏表示，仅限于对编码器信息进行注意以预测下一个单词，进一步介绍了一种新的对齐推断过程，直接将目标词的注意力激活率优化为对齐结果，这种对齐方法在两个公开数据集上明显优于 naive 方法，并且与 Giza++ 相当。

Jan, 2019

基于循环注意力模型的神经机器翻译

通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系，我们改进了 Bahdanau 等人（2014）的注意力模型，并且我们的参数化注意力模型的实验表明其可以提高翻译质量。

Jul, 2016

带有受监督注意力的神经机器翻译

本论文研究了注意力机制在神经机器翻译中生成对齐的问题，并从重新排序方面分析和解释了这个问题。提出了一种受传统对齐模型指导学习的监督注意力机制，实验表明，这种机制比标准注意力机制产生更好的对齐效果，并且在中英文翻译任务中均有显著提高。

Sep, 2016

神经机器翻译的硬编码高斯注意力

本论文探讨了 Transformer 的多头注意力对于实现高质量翻译的重要性，并基于此开发了一种无需任何学习参数的 ' 硬编码 ' 注意力变量。替换编码器和解码器中所有学习自注意力头部与固定、与输入无关的高斯分布最小程度影响四个不同语言对的 BLEU 得分，但额外硬编码交叉注意力 (将解码器与编码器连接) 会显著降低 BLEU，这提示它比自注意力更重要。通过在仅有一个基于硬编码 Transformer 中添加一个学习交叉注意头部可弥补大部分 BLEU 下降。综合结果揭示了 Transformer 的哪些组件实际上是重要的，这将有助于引导未来工作开发更简单、更高效的基于注意力的模型。

May, 2020

多元神经机器翻译的流畅性和忠实度建模

论文提出了一种引入评估模块来指导预测结果分布的神经机器翻译方法，从流畅性和忠实度的角度引导模型生成具有连接性的短语，实验结果表明，该方法可以显著提高翻译质量。

Nov, 2019