MIZAN:波斯語 - 英語大型平行語料庫
使用双向方法从英语和波斯文档的维基百科中提取平行句子,使用机器翻译系统将波斯文翻译成英文,反之亦然,然后使用 IR 系统测量翻译后句子的相似度,并将提取的句子加入现有 SMT 系统的训练数据,以改善翻译质量。提出的方法略优于单向方法。提取的语料库包含约 200,000 个句子,已按其相似度由 IR 系统计算排序,并可在 Web 上免费访问。
Nov, 2017
我们介绍了 KazParC,这是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库。KazParC 是首个也是最大的公开可用语料库,包含 371,902 个不同领域的平行句子,是通过人工翻译帮助开发的。我们的研究还延伸到了开发一种名为 Tilmash 的神经机器翻译模型。令人惊讶的是,Tilmash 在某些情况下的性能达到或超过了行业巨头,例如 Google Translate 和 Yandex Translate,由标准评估指标(如 BLEU 和 chrF)衡量。KazParC 和 Tilmash 都可在我们的 GitHub 仓库上以 Creative Commons Attribution 4.0 国际许可证(CC BY 4.0)进行下载。
Mar, 2024
本文介绍了一个新的基于网络的英日平行语料库 JParaCrawl v3.0,其包括超过 2100 万个独特的平行句对,证明它可以提高各种领域机器翻译模型的准确性,并将在将来公开发布。
Feb, 2022
本研究基于最受欢迎和有价值的平行语料库,将两种最先进的基于注意力的 seq2seq 模型应用于波斯语 - 英语机器翻译任务,旨在为研究人员提供标准基准,以评估其翻译结果。
Feb, 2023
本文旨在通过引入一个新构建的日英商务会话平行语料库,提高会话文本的机器翻译质量,并分析了该语料库,列举了自动翻译的具有挑战性的实例。同时,本文还试图将语料库添加到机器翻译训练中,并展示了基于该语料库训练的系统的优势。
Aug, 2020
介绍了 Samanantar,这是最大的公共平行语料库集合,包括英语和 11 种印度语言之间的 49.7 百万句子对,同时提取自公共平行语料库和网络,并在 Samanantar 上训练多语种 NMT 模型,从而在公开可用的基准测试上优于现有模型和基准线,希望能够推进印度语言的 NMT 和多语种 NLP 研究。
Apr, 2021
本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法,该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。
Nov, 2019
使用众包的方法,我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对(平行顶级页面对),并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后,我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix(12.4M)上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小,但我们发现这两个模型的准确度相当,证实了使用众包进行平行数据的网络挖掘是可行的。
May, 2024
本研究介绍了第一个大型波斯语语言模型 PersianLLaMA,在波斯文本和数据集上训练,通过最新的评估方法在波斯文本的生成和理解任务中表现出色,对于发展波斯语自然语言处理,特别是文本生成方面如聊天机器人、问答、机器翻译和文本摘要等任务可作为宝贵资源。
Dec, 2023
通过将机器翻译应用于英语数据集,本研究聚焦于生成波斯语命名实体数据集。通过实验评估,最高的 F1 分数是 CoNLL 2003 数据集的 85.11%。本研究的结果强调了机器翻译在为低资源语言(如波斯语)创建高质量的命名实体识别数据集方面的潜力,并提供了有关机器翻译在此任务中有效性的见解。此外,此方法可用于增强低资源语言中的数据或创建嘈杂数据以使命名实体系统更加稳健并改进它们。
Feb, 2023