Dec, 2023

高效的单调多头注意力机制

TL;DR我们介绍了 Efficient Monotonic Multihead Attention(EMMA),一种具有数值稳定性和无偏单调对齐估计的先进的同时翻译模型。另外,我们提出了改进的训练和推理策略,包括通过离线翻译模型进行同时微调和减少单调对齐方差。实验结果表明,所提出的模型在西班牙语和英语翻译任务中实现了最先进的性能。