MIZAN：波斯語 - 英語大型平行語料庫

Jan, 2018

MIZAN：波斯語 - 英語大型平行語料庫

MIZAN: A Large Persian-English Parallel Corpus

Omid Kashefi

TL;DR本文介绍了采集自文学杰作的超过一百万句子对的最大波斯语 - 英语平行语料库，包括其获取过程和统计信息，并使用该语料库对基础统计机器翻译系统进行实验。

Abstract

One of the most major and essential tasks in natural language processing is machine translation that is now highly dependent upon multilingual parallel corpora. Through this paper, we introduce the biggest

natural language processing machine translation parallel corpus persian-english literature

发现论文，激发创造

从可比语料库中提取英波斯平行语料库

使用双向方法从英语和波斯文档的维基百科中提取平行句子，使用机器翻译系统将波斯文翻译成英文，反之亦然，然后使用 IR 系统测量翻译后句子的相似度，并将提取的句子加入现有 SMT 系统的训练数据，以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子，已按其相似度由 IR 系统计算排序，并可在 Web 上免费访问。

Nov, 2017

KazParC: 机器翻译用的哈萨克平行语料库

我们介绍了 KazParC，这是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库。KazParC 是首个也是最大的公开可用语料库，包含 371,902 个不同领域的平行句子，是通过人工翻译帮助开发的。我们的研究还延伸到了开发一种名为 Tilmash 的神经机器翻译模型。令人惊讶的是，Tilmash 在某些情况下的性能达到或超过了行业巨头，例如 Google Translate 和 Yandex Translate，由标准评估指标（如 BLEU 和 chrF）衡量。KazParC 和 Tilmash 都可在我们的 GitHub 仓库上以 Creative Commons Attribution 4.0 国际许可证（CC BY 4.0）进行下载。

Mar, 2024

JParaCrawl v3.0：大规模英日平行语料库

本文介绍了一个新的基于网络的英日平行语料库 JParaCrawl v3.0，其包括超过 2100 万个独特的平行句对，证明它可以提高各种领域机器翻译模型的准确性，并将在将来公开发布。

Feb, 2022

使用 Transformers 评估波斯语 - 英语机器翻译数据集

本研究基于最受欢迎和有价值的平行语料库，将两种最先进的基于注意力的 seq2seq 模型应用于波斯语 - 英语机器翻译任务，旨在为研究人员提供标准基准，以评估其翻译结果。

Feb, 2023

商务对话语料库设计

本文旨在通过引入一个新构建的日英商务会话平行语料库，提高会话文本的机器翻译质量，并分析了该语料库，列举了自动翻译的具有挑战性的实例。同时，本文还试图将语料库添加到机器翻译训练中，并展示了基于该语料库训练的系统的优势。

Aug, 2020

Samanantar: 11 种印度语言最大的公开并行语料库收集

介绍了 Samanantar，这是最大的公共平行语料库集合，包括英语和 11 种印度语言之间的 49.7 百万句子对，同时提取自公共平行语料库和网络，并在 Samanantar 上训练多语种 NMT 模型，从而在公开可用的基准测试上优于现有模型和基准线，希望能够推进印度语言的 NMT 和多语种 NLP 研究。

Apr, 2021

JParaCrawl：大规模基于 Web 的英日平行语料库

本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法，该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。

Nov, 2019

利用众包进行网络挖掘的日中平行语料库

使用众包的方法，我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对（平行顶级页面对），并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后，我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix（12.4M）上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小，但我们发现这两个模型的准确度相当，证实了使用众包进行平行数据的网络挖掘是可行的。

May, 2024

波斯语 LLaMA: 迈向建立首个波斯语大型语言模型

本研究介绍了第一个大型波斯语语言模型 PersianLLaMA，在波斯文本和数据集上训练，通过最新的评估方法在波斯文本的生成和理解任务中表现出色，对于发展波斯语自然语言处理，特别是文本生成方面如聊天机器人、问答、机器翻译和文本摘要等任务可作为宝贵资源。

Dec, 2023

机器翻译用于生成命名实体数据集的潜力探索：波斯语和英语之间的案例研究

通过将机器翻译应用于英语数据集，本研究聚焦于生成波斯语命名实体数据集。通过实验评估，最高的 F1 分数是 CoNLL 2003 数据集的 85.11％。本研究的结果强调了机器翻译在为低资源语言（如波斯语）创建高质量的命名实体识别数据集方面的潜力，并提供了有关机器翻译在此任务中有效性的见解。此外，此方法可用于增强低资源语言中的数据或创建嘈杂数据以使命名实体系统更加稳健并改进它们。

Feb, 2023