识别大规模希伯来语 / 阿拉米语语料库中的平行段落

Feb, 2016

识别大规模希伯来语 / 阿拉米语语料库中的平行段落

Identification of Parallel Passages Across a Large Hebrew/Aramaic Corpus

Avi Shmidman, Moshe Koppel, Ely Porat

TL;DR提出一种高效、能够识别不完全相同的并行段落的方法，通过使用语料库中每个单词的两个最不常用的字母，找到由四到五个单词组成、相差不超过一个单词的匹配字符串对，然后识别这些匹配字符串对的聚类，该方法在约 30 秒内在数百万字的希伯来 - 阿拉姆语语料库中识别出 4600 多个并行段落，与缓慢、耗时的穷举法相比，该方法的覆盖范围基本相同。

Abstract

We propose a method for efficiently finding all parallel passages in a large corpus, even if the passages are not quite identical due to rephrasing and orthographic variation. The key ideas are the representation

parallel passages efficient method corpus infrequent letters matched pairs

发现论文，激发创造

从可比语料库中提取英波斯平行语料库

使用双向方法从英语和波斯文档的维基百科中提取平行句子，使用机器翻译系统将波斯文翻译成英文，反之亦然，然后使用 IR 系统测量翻译后句子的相似度，并将提取的句子加入现有 SMT 系统的训练数据，以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子，已按其相似度由 IR 系统计算排序，并可在 Web 上免费访问。

Nov, 2017

并行串：挖掘双语文本的初步研究

本篇论文介绍了一个自动查找 Web 上平行翻译文档的方法，该方法是概念上简单，完全独立于语言且可扩展的，初步评估结果表明该方法可能足够准确，可以在不需要人工干预的情况下应用。

Aug, 1998

ParaCotta: 来自最具多样性的翻译样本对的合成多语言释义语料库

使用神经机器翻译系统，通过 beam search 生成多个候选翻译样本，选择词汇最多样化的一对生成句式相似，语义丰富、跨 17 种语言的人工合成平行释义语料库，并用 BLEU 对比了其与 ParaBank2，结果表明其生成的句子语义类似而且词汇丰富度较高。

May, 2022

在非平行文本中识别词汇翻译

本文研究表明，基于不同语言文本中的词语共现模式的相关性，词语对齐和翻译鉴定也可以在非平行文本甚至不相关文本中自动化进行。

May, 1995

构建主题对齐的可比较语料库并挖掘其中真正的平行句对

通过使用网页爬取方法和机器翻译系统，本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法，并且能够提取噪音干扰较小的平行句子。

Sep, 2015

联合国平行语料库注释翻译方向

本研究将 UN 协议语料库中的翻译和原始文本区分开来，通过将问题建模为分类问题，可以达到高达 95％的分类准确性。我们通过为不同语言对派生并注释翻译方向的平行语料库，然后使用各种特征提取方法对数据进行分类。我们比较了不同的方法以及在不同语言中区分翻译和原始文本的能力。注释的语料库是公开可用的。

May, 2018

使用圣经评估散文风格转移

该论文通过语体转换任务，给定目标散文语体，提出了一个系统，生成样式改变但保留输入文本意义的输出，介绍了一种高质量的，对齐的，有样式差异的文本源，以圣经不同版本提供了标准化的训练，开发和测试数据集并报告了评价指标 BLEU 和 PINC, 本任务数据集无与伦比，可用于其他自然语言任务.

Nov, 2017

来自平行翻译的简单有效的释义相似度

从双语语料中直接学习释义句子嵌入的模型和方法，有效消除创建释义文本体的耗时环节。进一步地，该模型可用于跨语言任务，其性能优于且比最先进的复杂基线算法快几个数量级。

Sep, 2019

SAMER 阿拉伯文本简化语料库

我们提出了 SAMER 语料库，这是第一个针对学龄儿童的阿拉伯语句子简化的手工注释的平行语料库。该语料库包括了 15 部公开可获取的阿拉伯小说，总共约 159K 个单词。我们在文档和单词级别对语料库进行了可读性标注，并提供了针对不同可读性水平的两个简化版本的平行文本。我们描述了语料库的选择过程，并概述了我们创建注释和确保其质量所遵循的指导方针。我们的语料库可以公开获取，以支持和鼓励阿拉伯语句子简化、阿拉伯语自动可读性评估以及阿拉伯语教育语言技术的研究发展。

Apr, 2024

WikiMatrix: 从维基百科挖掘出 1620 种语言对中的 1.35 亿个平行句子

使用多语句子嵌入的方法自动从 85 种语言的维基百科文章中提取平行句子，共提取了 1.35 亿个平行句子，并且在 1886 种语言对上训练神经机器翻译基线系统，取得了较高的 BLEU 分数。WikiMatrix bitexts 可以对离散的语言进行机器翻译训练，而不需要通过英语来进行桥接。

Jul, 2019