- Feriji:法语 - 查尔马汉语平行语料库、词汇表与翻译工具
该研究介绍了 Feriji,第一个设计用于机器翻译的法语 - 扎尔马语并行语料库和词汇表,这对于解决扎尔马语资源匮乏的问题具有重要意义,研究通过在数据集上微调三个大型语言模型,使其在 BLEU 评估上达到 30.06,同时借助该语料库和模型 - 利用众包进行网络挖掘的日中平行语料库
使用众包的方法,我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对(平行顶级页面对),并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行 - ACLMultiParaDetox:利用平行数据扩展文本去毒处理到新的语言
文本排毒是一种文本样式转换(TST)任务,其目的是将文本从有毒的表面形式(例如不礼貌的词语)转化为中性语言。本研究将 ParaDetox 管道扩展到多种语言,提出 MultiParaDetox 以自动收集潜在任何语言的平行排毒语料库,并通过 - COLINGEthioMT:适用于低资源埃塞俄比亚语言的平行语料库
自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能,但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT,一个包含 15 种语言的新的平行语料库,同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集, - KazParC: 机器翻译用的哈萨克平行语料库
我们介绍了 KazParC,这是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库。KazParC 是首个也是最大的公开可用语料库,包含 371,902 个不同领域的平行句子,是通过人工翻译帮助开发的。我们的研究还延伸到了开发一种名 - 关于端到端语音翻译过滤的案例研究
通过使用最简单的筛选技术可以从大量的嘈杂数据集中减少数据量,得到一组更易管理和干净的数据集,并且在多语言到英语语音翻译模型中使用这样的清洁数据集可以显著提高模型性能,平均提升 4.65 个 BLEU 得分。
- APE-then-QE: 修正并过滤伪平行语料以用于机器翻译训练数据的生成
自动后编辑(APE)是自动识别和校正机器翻译(MT)输出中的错误的任务。我们提出了一种修复 - 过滤 - 使用的方法,使用 APE 系统来校正 MT 训练数据的目标端的错误。我们根据使用质量估计(QE)模型计算的质量分数选择原始和校正句子对 - EmojiLM: 建模新的表情符号语言
通过从大型语言模型合成大规模的文本 - 表情符号平行语料库,并在此基础上提取面向文本 - 表情符号双向翻译的序列到序列模型,我们的研究在公共基准测试和人工评估中表现出优于强基准模型的性能,且平行语料库对与表情符号相关的后续任务有益。
- 提高印度人民的司法准入:评估法律文本翻译成印度语言的基准
印度司法体系的大部分法律文本由于历史原因以复杂的英语编写而成,然而只有约 10% 的印度人能够阅读英语,因此需要将法律文本转化成各种印度语言,考虑到可用的英文法律文本的翻译。虽然对于印度语言之间的翻译已经有了很多研究,但据我们所知,在法律领 - 机器翻译的针对特定受众的解释
机器翻译中的一个常见问题是某些单词的翻译可能由于不同的文化背景导致目标语言受众难以理解。本研究探索从平行语料库中提取示例解释的技术,通过半自动的方法能够从大规模平行语料库中提取这些解释,为创建解释数据集提供了重要的自动化步骤。同时,通过实验 - 制定一部波斯语非正式 - 正式语料库
构建一个包含 50,000 个句对的并行语料库,用来提取波斯语非正式语言的规范文法和字词拼写变化。
- EMNLP槐树:一种具备源歌词的中国抒情歌曲模仿系统
Sudowoodo 是一个基于源歌词文本生成新歌词的中文歌词模仿系统,通过构建一个基于关键词的歌词模型的平行语料库并训练模型,利用后处理和排名模块选择最高质量的生成歌词,能够更好地进行歌词模仿。
- Milimili. 通过众包收集平行数据
通过众包的方法,我们提供了一种收集平行语料库的方法,尽管牺牲了质量,但它比雇佣专业翻译人员更具成本效益。此外,我们还提供了收集的车臣语 - 俄语和富拉语 - 英语语言对的实验性平行数据。
- 基于训练数据直接证据的机器翻译文本质量评估
本文研究了使用平行语料库来估计由数据驱动机器翻译系统产生的翻译质量,并展示了该简单直接的方法对机器翻译系统的翻译质量估计具有潜在的应用价值。
- HK-LegiCoST: 利用非逐字稿件进行语音翻译
HK-LegiCoST 是一个新的三方平行语料库,包含 600 多小时的粤语音频、其标准繁体中文文本和英文翻译,可用于研究粤语非笔录文本的语音翻译。
- 利用释义语料库进行句子简化初始化
本文提出了两种使用释义语料库来初始化神经简句化模型的策略,通过参考释义语料库中复杂度较高的句子对可以构造大规模虚拟平行简句化数据,并将该方法用于训练三种不同的神经简句化模型,在 WikiLarge 数据集中相对于未初始化情况下获得了显著的提 - IndicTrans2:适用于所有 22 个印度预定语言的高质量可访问机器翻译模型
该研究旨在通过整合并创建特定于印度的并行语料库和基准测试数据,训练出支持所有 22 种印度语言的机器翻译模型,为印度的语言多样性提供广泛且易于访问的机器翻译系统,该研究创造性地提出了四个关键领域的改进,并发布了 BPCC 和 IndicTr - 基于 LLM 的机器翻译中加入文化意识
本研究着眼于如何将文化知识应用于大型语言模型的机器翻译中,提出了一种新的数据筛选方法来构建具有文化相关性的平行语料库,并设计了简单有效的提示策略以帮助大型语言模型实现机器翻译。经过广泛实验表明,这些方法可以大大帮助将文化知识融入到大型语言模 - EMNLP多语言句子转换器作为多语词汇对齐器
本篇论文探究了多语言句子 Transformer LaBSE 在多语言单词对齐问题上的表现以及提出了一种用于进一步改进的平行语料库微调方法,实验证明我们的方法优于先前的最先进模型,可支持单个模型中的不同语言对的对齐,甚至在零射击语言对上实现 - 在卢干达语和英语之间构建平行语料库和训练翻译模型
本文介绍了一个针对 Luganda 语的 NMT 模型,首次建立 Luganda-English 双语平行语料,并且我们的模型在语言翻译 BLEU 评价中表现出较高的质量,证明为低资源语言建立机器翻译模型的可行性。