展示了一种利用公开的课程资料进行平行语料挖掘的框架,通过动态规划的句子对齐算法和机器翻译相似度,达到了 96% 的句子对齐 F1 分数,并通过机器翻译实验证明,挖掘到的语料能提高课程讲稿翻译的质量。
Nov, 2023
本文提出一种新方法,自动构建对话机器翻译的平行话语语料库,经实验表明,采用该方法可以显著提高翻译质量,同时公开了大约 10 万条已经手动标注了发言者和对话边界的平行话语数据。
May, 2016
本篇论文介绍了如何在文档级机器翻译中使用上下文来训练模型提升翻译质量,并且提供了一个平衡高质量的商务对话语料库用于调整和测试。此外,还提出了一种手动标注上下文信息用于减轻自动评估文档级系统的问题。
Dec, 2020
本文介绍了一个新的基于网络的英日平行语料库 JParaCrawl v3.0,其包括超过 2100 万个独特的平行句对,证明它可以提高各种领域机器翻译模型的准确性,并将在将来公开发布。
Feb, 2022
这篇论文描述了 BWB 这个由专家将汉语小说翻译成英文的大型平行语料库,以及一个用于探究机器翻译系统建模各种语篇现象的标注测试集,希望这个资源能够为更多的文档级机器翻译工作提供指导和灵感。
Oct, 2022
本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法,该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。
Nov, 2019
使用生成式语言模型创造虚构平行语料库是对手动平行语料库的一个替代方案。我们的实验发现,虚构语料库可以为小型手动采集的语料库补充数据,从而提高翻译信号的质量。
Jul, 2023
报告介绍了一种协议以收集跨语言韵律映射和其他改善语音翻译的方法,包括收集语言之间紧密匹配的话语对的、数据收集的描述,以及一些相关的观察和思考。此报告面向使用语料库,扩展语料库和设计类似的双语对话数据收集的人。
Nov, 2022
本文介绍了英语翻译,适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明,将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上,突显了配对训练数据的重要性。
Mar, 2024
本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用 BERT 的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。
May, 2020