日英会话平行语料库对齐文本

Dec, 2020

Document-aligned Japanese-English Conversation Parallel Corpus

Matīss Rikters, Ryokan Ri, Tong Li, Toshiaki Nakazawa

TL;DR本篇论文介绍了如何在文档级机器翻译中使用上下文来训练模型提升翻译质量，并且提供了一个平衡高质量的商务对话语料库用于调整和测试。此外，还提出了一种手动标注上下文信息用于减轻自动评估文档级系统的问题。

Abstract

Sentence-level (SL) machine translation (MT) has reached acceptable quality for many high-resourced languages, but not document-level (DL) MT, which is difficult to 1) train with little amount of DL data; and 2)

machine translation document-level evaluation context corpus

发现论文，激发创造

通过密集注释的平行语料库以话语为中心评估机器翻译

本论文提出了一个带有丰富语篇注释的新数据集，并探讨了源语言和目标语言的语篇结构相似性和差异性以及其对机器翻译的挑战和机会，该资源可公开使用以促进未来在文档级机器翻译和其他语言翻译任务的研究。

May, 2023

具有篇章标注的双语平行语料库

这篇论文描述了 BWB 这个由专家将汉语小说翻译成英文的大型平行语料库，以及一个用于探究机器翻译系统建模各种语篇现象的标注测试集，希望这个资源能够为更多的文档级机器翻译工作提供指导和灵感。

Oct, 2022

机器翻译中的文档级语言模型

本研究针对机器翻译系统在句子级别上操作的限制，提出了利用文档级单语数据构建上下文感知翻译系统的方法，并通过结合现有句子级翻译模型和文档级语言模型，改进了现有方法，并提出了新的权重技术以提高系统组合的灵活性和降低计算开销。通过对四个不同的翻译任务进行全面评估，结果显示我们的改进能够显著提高面向文档的评分，并在计算上更高效。但在大多数情况下，通过再训练翻译系统进行反向翻译可以获得更好的结果。最后，我们探索了基于大语言模型的语言模型融合，在最新的大语言模型进展的基础上取得了一定的潜力。

Oct, 2023

商务对话语料库设计

本文旨在通过引入一个新构建的日英商务会话平行语料库，提高会话文本的机器翻译质量，并分析了该语料库，列举了自动翻译的具有挑战性的实例。同时，本文还试图将语料库添加到机器翻译训练中，并展示了基于该语料库训练的系统的优势。

Aug, 2020

机器翻译中逃离句子级范式

本文提出了一种通过解决模型架构、训练数据和评估指标三个问题开展文本背景机器翻译的方案，并在 DE$ ightarrow$EN，EN$ ightarrow$DE，EN$ ightarrow$FR 和 EN$ ightarrow$RU 等语种的大数据实验中表明这三项改进措施能够显著提高文本背景翻译的性能。

Apr, 2023

使用自我训练在句子级神经机器翻译模型中捕获文档上下文

该研究提出了一种基于自训练的方法，可以在不需要专门的并行文档级语料库和模型的情况下，将已训练好的句子级神经机器翻译模型应用于文档级机器翻译任务，并在三个文档级数据集上进行了评估，结果显示我们的方法在 BLEU 指标上具有更高的得分和更高的人类偏好度。

Mar, 2020

文档级神经机器翻译：方法与评估调查

这篇综述论文旨在总结文档级机器翻译的最新研究进展，重点讨论了神经网络模型、训练策略、评估指标等方面的创新，为该领域的研究者提供状态认知和未来方向。

Dec, 2019

多语言文档级翻译实现从句子到文档的零 - shot 转移

本文研究了使用多语言模型从有文档的教师语言到只有句子级数据的学生语言的零 - shot 情况下如何将 DocNMT 中的上下文建模转移的问题，首次将文档级翻译视为一种迁移学习问题，并使用基于简单连接的 DocNMT，探索了 3 个因素对转移的影响。实验表明，使用更多的教师语言和适当的数据平衡都有助于提高转移质量。同时多语言 DocNMT 在真实文档对或者反向翻译对数据条件下均可实现较好的性能表现。

Sep, 2021

不要排除掉单语言说话者：一种众包机器翻译数据的方法

本文提出了一种新的机器翻译数据集，利用 GIF 作为中介，从单语注释器中收集平行句子，从而降低了需要寻找、训练双语人员的成本，并经过内在和外在评估，发现使用 GIFs 收集的句子确实具有更高的质量。

Jun, 2021

文档级机器翻译方法比较

本文给出了关于文档级机器翻译的文献综述，对比了各种方法在两个文档级评估套件上的表现，并发现基于单语文档的回译方法在文档级评估和人类评估方面都能达到相同结果，因此不需要设计过于复杂的模型。

Jan, 2021