多词语表达对英语到 Bharti 盲文机器翻译的影响
本文提出了一种将印度主要语言转换为 Bharti 盲文的方案,该系统采用混合方法,使用基于规则和基于 LSTM 的模型,测试结果表明该模型的准确性接近实际。
May, 2023
探究了神经机器翻译 (NMT) 在英文 - 拉脱维亚语和英文 - 捷克语 NMT 系统中分配注意力和改善包含多词表达式 (MWE) 的句子的自动翻译,使用两种改进策略:自动提取的 MWE 候选句对和包含提取的 MWE 候选句的完整句子,两种方法均取得了良好的结果,其中第一种方法表现最佳,自动评估结果提高了 0.99 BLEU 点。同时还提供了用于 MWE 提取和对齐检查的开源软件和工具。
Oct, 2017
为了解决印地语交互下,由于语言间巨大的形态学复杂度而导致的低资源语言之间的翻译问题,本文提出了一种基于常见多语种拉丁编码的方法。使用这种方法,结合 Byte Pair Embedding,可以更好地利用印地语相似性,并通过将不同但相似的语言映射到同一正交 - 语音字符空间来改进翻译质量。在低资源条件下,我们验证了提出的方法,并且在大多数情况下得到了改进,在类似语言对(Gujarati-Hindi,Marathi-Hindi,Nepali-Hindi,Maithili - Hindi,Punjabi-Hindi 和 Urdu-Hindi)中,在一个案例中提高了约 10 BLEU 分数,而在远程和零 - shot 语言对中还提高了约 1 个 BLEU 分数。
May, 2023
我们使用深度学习技术开发了一种神经机器翻译系统,通过训练 Transformer 模型将印度语 Hindi 翻译成英语,通过实施回译增强训练数据并尝试使用 Byte Pair Encoding (BPE) 进行词汇划分,我们在 10 个不同的配置中训练 Transformer,在 IIT Bombay 英印语语料库的测试集中取得了 24.53 的最新 BLEU 分数。
Sep, 2023
本文介绍了一种基于多词表达式的人机协作评估度量方法,旨在评估机器翻译系统中多词表达式的准确性和语义等价性,以此作为评估机器翻译系统的指标。
Nov, 2022
本文提出了一个 MNMT 系统,通过各种增强策略改进它的性能,研究了方言、语言脚本等因素在提高低资源语言翻译表现中的作用,并展示了回译和领域适应对提高源语言和目标语言翻译质量的优势。通过这些方法,我们的模型在评价指标(即一组 IL 的 BLEU(双语评估协议)得分)方面比基线模型更高效。
Sep, 2022
本文构建了 Indic-to-Indic 机器翻译模型,并且考察了语言相关性、借用相关语言以及不同语系对模型效率的影响,结果发现,使用相关语言对 WI 语系是有益的,而对 EI 语系可能是有害的,对 DR 语系影响不明确,但对 EN-IL 模型是有用的,并且转译还有助于提高模型的性能。
Jun, 2023
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018
通过使用机器翻译作为涉及英语和 22 种印度语言的任务,我们探索了大型语言模型的多语言能力,研究了原始模型的翻译能力和上下文学习能力,通过参数高效的微调方法和完全微调,我们确定了最佳性能的大型语言模型。结果表明,大型语言模型在包括目前在 LLMs 中代表较少的语言的机器翻译能力方面取得了显著的进展。
Nov, 2023
本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架,其中包括基线 NMT 系统,检索模块和用于公共网站的对齐模块,通过迭代增加语料库来改进系统。我们的工作还评估了设计选择,例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比,本工作不仅提供了自动化框架,还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。
Aug, 2020