本论文提出了一个带有丰富语篇注释的新数据集,并探讨了源语言和目标语言的语篇结构相似性和差异性以及其对机器翻译的挑战和机会,该资源可公开使用以促进未来在文档级机器翻译和其他语言翻译任务的研究。
May, 2023
这篇论文描述了 BWB 这个由专家将汉语小说翻译成英文的大型平行语料库,以及一个用于探究机器翻译系统建模各种语篇现象的标注测试集,希望这个资源能够为更多的文档级机器翻译工作提供指导和灵感。
Oct, 2022
本研究针对机器翻译系统在句子级别上操作的限制,提出了利用文档级单语数据构建上下文感知翻译系统的方法,并通过结合现有句子级翻译模型和文档级语言模型,改进了现有方法,并提出了新的权重技术以提高系统组合的灵活性和降低计算开销。通过对四个不同的翻译任务进行全面评估,结果显示我们的改进能够显著提高面向文档的评分,并在计算上更高效。但在大多数情况下,通过再训练翻译系统进行反向翻译可以获得更好的结果。最后,我们探索了基于大语言模型的语言模型融合,在最新的大语言模型进展的基础上取得了一定的潜力。
Oct, 2023
本文旨在通过引入一个新构建的日英商务会话平行语料库,提高会话文本的机器翻译质量,并分析了该语料库,列举了自动翻译的具有挑战性的实例。同时,本文还试图将语料库添加到机器翻译训练中,并展示了基于该语料库训练的系统的优势。
Aug, 2020
本文提出了一种通过解决模型架构、训练数据和评估指标三个问题开展文本背景机器翻译的方案,并在 DE$ ightarrow$EN,EN$ ightarrow$DE,EN$ ightarrow$FR 和 EN$ ightarrow$RU 等语种的大数据实验中表明这三项改进措施能够显著提高文本背景翻译的性能。
Apr, 2023
该研究提出了一种基于自训练的方法,可以在不需要专门的并行文档级语料库和模型的情况下,将已训练好的句子级神经机器翻译模型应用于文档级机器翻译任务,并在三个文档级数据集上进行了评估,结果显示我们的方法在 BLEU 指标上具有更高的得分和更高的人类偏好度。
Mar, 2020
这篇综述论文旨在总结文档级机器翻译的最新研究进展,重点讨论了神经网络模型、训练策略、评估指标等方面的创新,为该领域的研究者提供状态认知和未来方向。
Dec, 2019
本文研究了使用多语言模型从有文档的教师语言到只有句子级数据的学生语言的零 - shot 情况下如何将 DocNMT 中的上下文建模转移的问题,首次将文档级翻译视为一种迁移学习问题,并使用基于简单连接的 DocNMT,探索了 3 个因素对转移的影响。实验表明,使用更多的教师语言和适当的数据平衡都有助于提高转移质量。同时多语言 DocNMT 在真实文档对或者反向翻译对数据条件下均可实现较好的性能表现。
Sep, 2021
本文提出了一种新的机器翻译数据集,利用 GIF 作为中介,从单语注释器中收集平行句子,从而降低了需要寻找、训练双语人员的成本,并经过内在和外在评估,发现使用 GIFs 收集的句子确实具有更高的质量。
Jun, 2021
本文给出了关于文档级机器翻译的文献综述,对比了各种方法在两个文档级评估套件上的表现,并发现基于单语文档的回译方法在文档级评估和人类评估方面都能达到相同结果,因此不需要设计过于复杂的模型。
Jan, 2021