六种语言的开放字幕释义语料库

Sep, 2018

Open Subtitles Paraphrase Corpus for Six Languages

Mathias Creutz

TL;DR介绍了 Opusparcus 这个新的近义词语料库，其中包括六种欧洲语言的训练、开发和测试数据集。这些数据集是从 OpenSubtitles2016 中提取的，可用于计算机辅助语言学习等领域。

Abstract

This paper accompanies the release of opusparcus, a new paraphrase corpus for six European languages: German, English, Finnish, French, Russian, and Swedish. The corpus consists of paraphrases, that is, pairs of

opusparcus paraphrase corpus opensubtitles2016 language learning training data

发现论文，激发创造

六种语言嘈杂字幕中的释义检测

本篇研究提出了采用两种训练模型进行自动同义句检测，发现 GRAN 模型优于 WA 模型，并且对噪声干扰更具鲁棒性，适合于处理更多、更杂的数据，并在其他数据集进行了实验。但是由于域不匹配问题，在测试数据上未能达到相同的性能。

Sep, 2018

ParaCotta: 来自最具多样性的翻译样本对的合成多语言释义语料库

使用神经机器翻译系统，通过 beam search 生成多个候选翻译样本，选择词汇最多样化的一对生成句式相似，语义丰富、跨 17 种语言的人工合成平行释义语料库，并用 BLEU 对比了其与 ParaBank2，结果表明其生成的句子语义类似而且词汇丰富度较高。

May, 2022

联合国平行语料库注释翻译方向

本研究将 UN 协议语料库中的翻译和原始文本区分开来，通过将问题建模为分类问题，可以达到高达 95％的分类准确性。我们通过为不同语言对派生并注释翻译方向的平行语料库，然后使用各种特征提取方法对数据进行分类。我们比较了不同的方法以及在不同语言中区分翻译和原始文本的能力。注释的语料库是公开可用的。

May, 2018

从配音系列中创建语音到语音语料库

本研究提出了一种无监督方法来构建语音到语音语料库，并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言，以生成一种平行语音语料库，并应用于短音频片段和长音频剪辑，效果表现稳健。

Mar, 2022

一个平行的翻译语料库

本研究描述了一系列双语英语 - 法语和英语 - 德语平行语料库，其中翻译方向经过准确可靠的注释。这些语料库多样化，包括议会议事录、文学作品、TED 演讲的抄录和政治评论。它们将对翻译和机器翻译的语言研究和应用具有重大意义，特别是在翻译 ese 识别方面，这是近年来越来越受到关注的研究方向。为了验证语料库的质量和可靠性，我们复制了先前在翻译 ese 的监督和无监督识别方面的结果，并将实验进一步扩展到其他数据集和语言。

Sep, 2015

使用法语翻译扩充 Librispeech：一种用于直接语音翻译评估的多模态语料库

本文介绍了使用 LibriSpeech 增强现有单语语料库的方法，建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库，并给出了相应的处理细节和手动评估结果，该平行语料库可以用于直接语音翻译或其他口语翻译实验。

Feb, 2018

KazParC: 机器翻译用的哈萨克平行语料库

我们介绍了 KazParC，这是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库。KazParC 是首个也是最大的公开可用语料库，包含 371,902 个不同领域的平行句子，是通过人工翻译帮助开发的。我们的研究还延伸到了开发一种名为 Tilmash 的神经机器翻译模型。令人惊讶的是，Tilmash 在某些情况下的性能达到或超过了行业巨头，例如 Google Translate 和 Yandex Translate，由标准评估指标（如 BLEU 和 chrF）衡量。KazParC 和 Tilmash 都可在我们的 GitHub 仓库上以 Creative Commons Attribution 4.0 国际许可证（CC BY 4.0）进行下载。

Mar, 2024

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

对话翻译篇章语料库的自动构建

本文提出一种新方法，自动构建对话机器翻译的平行话语语料库，经实验表明，采用该方法可以显著提高翻译质量，同时公开了大约 10 万条已经手动标注了发言者和对话边界的平行话语数据。

May, 2016

AVATAR: 用于 Java-Python 程序翻译的并行语料库

本文介绍了一个包括 Java 和 Python 的 8,475 个编程问题和解决方案的数据集，以及在此数据集上进行的基于监督学习的程序翻译模型的实验。实验结果表明，这些模型在词汇匹配方面表现良好，但在语法和数据流匹配方面表现出欠缺。

Aug, 2021