对话翻译篇章语料库的自动构建

May, 2016

Automatic Construction of Discourse Corpora for Dialogue Translation

Longyue Wang, Xiaojun Zhang, Zhaopeng Tu, Andy Way, Qun Liu

TL;DR本文提出一种新方法，自动构建对话机器翻译的平行话语语料库，经实验表明，采用该方法可以显著提高翻译质量，同时公开了大约 10 万条已经手动标注了发言者和对话边界的平行话语数据。

Abstract

In this paper, a novel approach is proposed to automatically construct parallel discourse corpus for dialogue machine translation. Firstly, the parallel →

parallel discourse corpus dialogue machine translation subtitle data speaker information translation quality

发现论文，激发创造

通过密集注释的平行语料库以话语为中心评估机器翻译

本论文提出了一个带有丰富语篇注释的新数据集，并探讨了源语言和目标语言的语篇结构相似性和差异性以及其对机器翻译的挑战和机会，该资源可公开使用以促进未来在文档级机器翻译和其他语言翻译任务的研究。

May, 2023

商务对话语料库设计

本文旨在通过引入一个新构建的日英商务会话平行语料库，提高会话文本的机器翻译质量，并分析了该语料库，列举了自动翻译的具有挑战性的实例。同时，本文还试图将语料库添加到机器翻译训练中，并展示了基于该语料库训练的系统的优势。

Aug, 2020

双语语料库挖掘和多阶段微调以提升讲座文稿机器翻译

展示了一种利用公开的课程资料进行平行语料挖掘的框架，通过动态规划的句子对齐算法和机器翻译相似度，达到了 96% 的句子对齐 F1 分数，并通过机器翻译实验证明，挖掘到的语料能提高课程讲稿翻译的质量。

Nov, 2023

具有篇章标注的双语平行语料库

这篇论文描述了 BWB 这个由专家将汉语小说翻译成英文的大型平行语料库，以及一个用于探究机器翻译系统建模各种语篇现象的标注测试集，希望这个资源能够为更多的文档级机器翻译工作提供指导和灵感。

Oct, 2022

使用法语翻译扩充 Librispeech：一种用于直接语音翻译评估的多模态语料库

本文介绍了使用 LibriSpeech 增强现有单语语料库的方法，建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库，并给出了相应的处理细节和手动评估结果，该平行语料库可以用于直接语音翻译或其他口语翻译实验。

Feb, 2018

利用单语语料库进行非监督式机器翻译

提出了一种基于单语语料的机器翻译方法，该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中，从而学习翻译而不使用任何标记数据，该方法在两种语言对的两个广泛使用的数据集上表现出色。

Oct, 2017

跨语言再演绎的对话

报告介绍了一种协议以收集跨语言韵律映射和其他改善语音翻译的方法，包括收集语言之间紧密匹配的话语对的、数据收集的描述，以及一些相关的观察和思考。此报告面向使用语料库，扩展语料库和设计类似的双语对话数据收集的人。

Nov, 2022

从配音系列中创建语音到语音语料库

本研究提出了一种无监督方法来构建语音到语音语料库，并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言，以生成一种平行语音语料库，并应用于短音频片段和长音频剪辑，效果表现稳健。

Mar, 2022

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

联合国平行语料库注释翻译方向

本研究将 UN 协议语料库中的翻译和原始文本区分开来，通过将问题建模为分类问题，可以达到高达 95％的分类准确性。我们通过为不同语言对派生并注释翻译方向的平行语料库，然后使用各种特征提取方法对数据进行分类。我们比较了不同的方法以及在不同语言中区分翻译和原始文本的能力。注释的语料库是公开可用的。

May, 2018