商务对话语料库设计

Aug, 2020

Designing the Business Conversation Corpus

Matīss Rikters, Ryokan Ri, Tong Li, Toshiaki Nakazawa

TL;DR本文旨在通过引入一个新构建的日英商务会话平行语料库，提高会话文本的机器翻译质量，并分析了该语料库，列举了自动翻译的具有挑战性的实例。同时，本文还试图将语料库添加到机器翻译训练中，并展示了基于该语料库训练的系统的优势。

Abstract

While the progress of machine translation of written text has come far in the past several years thanks to the increasing availability of parallel corpora and corpora-based training technologies, automatic transl

machine translation spoken text dialogues parallel corpus training technologies

发现论文，激发创造

双语语料库挖掘和多阶段微调以提升讲座文稿机器翻译

展示了一种利用公开的课程资料进行平行语料挖掘的框架，通过动态规划的句子对齐算法和机器翻译相似度，达到了 96% 的句子对齐 F1 分数，并通过机器翻译实验证明，挖掘到的语料能提高课程讲稿翻译的质量。

Nov, 2023

对话翻译篇章语料库的自动构建

本文提出一种新方法，自动构建对话机器翻译的平行话语语料库，经实验表明，采用该方法可以显著提高翻译质量，同时公开了大约 10 万条已经手动标注了发言者和对话边界的平行话语数据。

May, 2016

日英会话平行语料库对齐文本

本篇论文介绍了如何在文档级机器翻译中使用上下文来训练模型提升翻译质量，并且提供了一个平衡高质量的商务对话语料库用于调整和测试。此外，还提出了一种手动标注上下文信息用于减轻自动评估文档级系统的问题。

Dec, 2020

JParaCrawl v3.0：大规模英日平行语料库

本文介绍了一个新的基于网络的英日平行语料库 JParaCrawl v3.0，其包括超过 2100 万个独特的平行句对，证明它可以提高各种领域机器翻译模型的准确性，并将在将来公开发布。

Feb, 2022

具有篇章标注的双语平行语料库

这篇论文描述了 BWB 这个由专家将汉语小说翻译成英文的大型平行语料库，以及一个用于探究机器翻译系统建模各种语篇现象的标注测试集，希望这个资源能够为更多的文档级机器翻译工作提供指导和灵感。

Oct, 2022

JParaCrawl：大规模基于 Web 的英日平行语料库

本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法，该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。

Nov, 2019

使用 ChatGPT 进行神经机器翻译数据生成和增强

使用生成式语言模型创造虚构平行语料库是对手动平行语料库的一个替代方案。我们的实验发现，虚构语料库可以为小型手动采集的语料库补充数据，从而提高翻译信号的质量。

Jul, 2023

跨语言再演绎的对话

报告介绍了一种协议以收集跨语言韵律映射和其他改善语音翻译的方法，包括收集语言之间紧密匹配的话语对的、数据收集的描述，以及一些相关的观察和思考。此报告面向使用语料库，扩展语料库和设计类似的双语对话数据收集的人。

Nov, 2022

推进语音翻译：普通话 - 英语电话会话语料库

本文介绍了英语翻译，适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明，将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上，突显了配对训练数据的重要性。

Mar, 2024

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020