利用双向递归神经网络提取平行句子以改善机器翻译

COLINGJun, 2018

利用双向递归神经网络提取平行句子以改善机器翻译

Extracting Parallel Sentences with Bidirectional Recurrent Neural Networks to Improve Machine Translation

Francis Grégoire, Philippe Langlais

TL;DR该研究提出了一种基于双向循环神经网络的并行句子抽取方法，旨在解决多语言自然语言处理应用中数据稀疏性的问题。通过从维基百科文章中提取句子对来训练机器翻译系统，实验证明采用该方法能够显著提高翻译性能。

Abstract

parallel sentence extraction is a task addressing the data sparsity problem found in multilingual natural language processing applications. We propose a →

parallel sentence extraction bidirectional recurrent neural network multilingual natural language processing noisy parallel corpora machine translation systems

发现论文，激发创造

深度神经网络在平行句子提取中的应用

本文提出了一种基于深度神经网络的端到端方法，用于检测两种不同语言之间句子之间的翻译等效性，结果表明该方法在提取平行句子的质量和统计机器翻译系统的翻译表现上均有显著改善，为平行句子提取任务的深度学习研究提供了一种新的思路。

Sep, 2017

使用双向递归神经网络引导多语言文本分析工具

本文旨在研究对于资源贫乏的语言的快速语言注释工具的发展，我们采用递归神经网络模型实验了多种跨语言注释映射方法。我们提出了一种真正的多语言标记器方法，并通过使用平行语料库证实了其有效性和通用性。

Sep, 2016

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Sep, 2015

使用双语句子嵌入的有效并行语料库挖掘

该研究提出了一种有效的并行语料库挖掘方法，使用双语句子嵌入进行训练，通过引入硬负例来实现。该方法是基于语义相似度的，结果表明该方法可以用于重建平行文本，从而训练出 NMT 模型，与使用原始数据训练的模型相差不大。

Jul, 2018

从自动挖掘的同义句训练有效的神经句子编码器

本文提出了一种无需人工标注的数据集构建方法，使用双语文本语料来 fine-tune Transformer 语言模型，并加入一个循环池层构建出有效的特定语种句子编码器，该方法在单张图形卡上使用不到一天时间训练，在波兰语的八个语言任务上实现了高性能，超越了最好的多语言句子编码器。

Jul, 2022

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

利用可比语料库诱导的双语词典进行低资源语言的神经机器翻译

本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子，证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。

Jun, 2018

WikiMatrix: 从维基百科挖掘出 1620 种语言对中的 1.35 亿个平行句子

使用多语句子嵌入的方法自动从 85 种语言的维基百科文章中提取平行句子，共提取了 1.35 亿个平行句子，并且在 1886 种语言对上训练神经机器翻译基线系统，取得了较高的 BLEU 分数。WikiMatrix bitexts 可以对离散的语言进行机器翻译训练，而不需要通过英语来进行桥接。

Jul, 2019

CCMatrix: 在 WEB 上挖掘数十亿高质量平行句子

通过使用边际化双语挖掘技术在多语言句子空间内，我们能够针对百亿级别的单语语料库，挖掘出 45 亿双语句子。使用这些挖掘的数据，我们在 TED、WMT 和 WAT 的测试集上，超越了 WMT'19 的最佳结果，并且对于远程语言对（如俄语 / 日语），我们的表现非常出色。

Nov, 2019