利用可用的对齐技术,本研究试图对齐僧伽罗语和英语单词嵌入空间,并引入了僧伽罗语嵌入对齐的基准。此外,为了促进有监督的对齐,我们还引入了僧伽罗语 - 英语对齐数据集,作为我们针对词嵌入对齐的锚数据集。尽管与法语、德语或中文等高资源语言相比,我们的结果并不可比,但我们相信我们的工作为英语和僧伽罗语嵌入之间的更专门的对齐奠定了基础。
Nov, 2023
本研究介绍了 FLoRes 评估数据集,并针对 Nepali-English 和 Sinhala-English 等低资源语言,以维基百科翻译句子为基础,展开全面评测各类联机翻译方法的表现,进而发现当前最先进的方法对于这一基准测试的表现相对较差,给低资源机器翻译的研究提出了挑战。
Feb, 2019
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018
介绍了 Bhinneka Korpus 这一多语种并行语料库,以增强印度尼西亚当地语言资源的获取和利用,并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。
Apr, 2024
本研究利用自定义句子分段器和两种新方法,构建一个高质量的孟加拉语 - 英语双语平行语料库,从而提高孟加拉语机器翻译的 BLEU 指标,并评估了一个包含 1000 个双语句对的测试集,释放了分段器,平行语料库和评估集,为孟加拉语以及其他低资源语言的机器翻译研究铺平了道路。
Sep, 2020
本文介绍了针对印度尼西亚低资源语言的第一次并行资源开发,包括数据集、多任务基准、词汇表和印度尼西亚 - 英文平行数据集,并描述了创建这些资源的挑战。该研究的目的是激发有关印度尼西亚和其他代表性不足语言的自然语言处理研究。
May, 2022
本文通过无监督的方式对单语词嵌入空间进行对齐,构建两种语言之间的双语词典,旨在为全自动的机器翻译提供潜在影响。实验表明该方法在英语 - 俄语和英语 - 中文等语言对中效果很好,且无需使用字符信息。
Oct, 2017
自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能,但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT,一个包含 15 种语言的新的平行语料库,同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集,通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。
Mar, 2024
利用词性标注和位置编码来提高基础的英语到僧伽罗语神经机器翻译模型的翻译能力。
Feb, 2022
通过基于深度学习的方法使用机器翻译和跨语言检索工具,我们提供了涵盖 10 种印度语言的句子对齐平行语料库,包括低资源语言,此外还提供了独立测试语料库用于验证 10 种印度语言的性能。
Jul, 2020