P-Transformer：面向更好的文档到文档神经机器翻译

Dec, 2022

P-Transformer：面向更好的文档到文档神经机器翻译

P-Transformer: Towards Better Document-to-Document Neural Machine Translation

Yachao Li, Junhui Li, Jing Jiang, Shimin Tao, Hao Yang...

TL;DR本文提出了一个使用位置感知 Transformer 的 Doc2Doc NMT 模型，通过整合绝对位置信息和相对位置信息，显著改善了传统 Transformer 在数据集小且层数较高时不能训练成功的问题，并在多个语言对的文档级翻译实验中取得了新的最高性能。

Abstract

Directly training a document-to-document (Doc2Doc) neural machine translation (NMT) via transformer from scratch, especially on small datasets usually fails to converge. Our dedicated probing tasks show that 1) both the absolute position and →

doc2doc nmt transformer position-aware transformer absolute position relative position

发现论文，激发创造

Transformer 的动态位置编码

本研究提出了一种新的动态位置编码（DPE）方法，通过新的位置嵌入来纠正目标单词的位置信息，相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。

Apr, 2022

只需 5% 的注意力：高效的长距离文档级神经机器翻译

通过引入基于轻量级注意力的额外选择层，我们在保持翻译性能的同时加快了 20％的速度，能够实现将注意力仅集中在约 5％的令牌上，从而节省了 93％的计算成本。

Sep, 2023

相对位置表示的自注意力

本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示，比绝对位置表示获得了更好的机器翻译结果。同时，将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。

Mar, 2018

使用更好的相对位置嵌入改进 Transformer 模型

本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法，通过增加查询、键和相对位置嵌入之间的交互，进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化，相比之前的位置嵌入方法，在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后，还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。

Sep, 2020

重新思考文档级神经机器翻译

通过合适的训练技术，使用原来的 Transformer 模型可以在涉及长度 2000 个单词的文档级别的翻译中取得比句子级别的模型更好的表现，并且在六种语言的九个文档级别和两个句子级别的数据集上，使用包括 BLEU，四个词法指标，三个新提出的辅助语言指标和人类评估在内的全面指标，证明了文档级别 Transformer 模型的优越性。

Oct, 2020

语音识别和直接翻译的相对位置编码

通过在自注意力网络中采用相对位置编码方案，我们成功地让 Transformer 模型适应了语音数据的分散分布特点，并在 Switchboard 基准测试中获得了最佳识别结果，也在 MuST-C 语音翻译基准测试中获得了最佳出版结果，并且我们的模型能够更好地利用合成数据，并适应语音翻译的变量句子分割质量。

May, 2020

WMT19 中的英捷系统：文档级 Transformer

本文介绍在 WMT19 共享任务中，我们采用 Transformer 模型和 document-level 训练方式，用于英捷克翻译，以提高翻译文件的充分性和连贯性。

Jul, 2019

文档级机器翻译的 G-Transformer

通过引入归纳偏置（locality assumption）作为一种假设，从目标到源的注意力的假设空间减小，来解决翻译单元扩展至整个文档时出现的训练失败问题，我们提出了 G-Transformer。实验表明，G-Transformer 比 Transformer 更快、更稳定地收敛，在三个基准数据集上实现了新的最优 BLEU 分数。

May, 2021

面向个性化及文档级对话机器翻译

Personalised NMT and document-level NMT are proposed to incorporate extra-textual information directly into the machine translation process, with the aim of improving the accuracy of translation for subtitles in five languages, respectively. The main challenges are addressed by incorporating extra-textual information, improving the accuracy of cohesion devices, and proposing reliable evaluation metrics for PersNMT and DocNMT.

Feb, 2021

长短时 Masking Transformer: 一种简单而有效的文档级神经机器翻译基线模型

本研究探索了基于上下文感知框架的神经机器翻译系统，研究发现标准 Transformer 自回归属性可以同时带来一致性和误差积累的优势和劣势，因此提出了一种简单的基于长短时记忆的自注意力机制用于捕捉长距离依赖并减少误差传播，在两个公开数据集上验证可以获得较高 BLEU 得分并捕捉语篇现象。

Sep, 2020