面向广泛覆盖的命名实体资源:多元语言数据高效方法
本篇论文研究了如何利用丰富的单语语料库对神经机器翻译进行建模,结果表明在低资源的土耳其 - 英语和中英文聊天信息场景下,相较于短语和层级翻译,可以提高高达 1.96 和 1.59 的 BLEU 值,同时也适用于高资源语言,例如捷克语 - 英语和德语 - 英语,并成功提高了 0.39 和 0.47 个 BLEU 分数。
Mar, 2015
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018
本文针对跨语言 NER 任务,提出了一种基于平行语料库的名词实体对齐模型,并在没有监督模型的情况下将 NER 从英语部分传递到目标语言中,以此获得更自然流畅和细微差别的数据集来提高模型性能,在 4 种目标语言的基准数据集上得到了具有竞争力的结果。
Jan, 2021
该论文介绍了为印度东北地区的十三种资源非常匮乏的语言创建初始的双语语料库,同时提供了这些语言的初始翻译结果。该论文还创建了这些语言的首个平行语料库,并提供了关于这些语言的基准神经机器翻译结果。我们打算将这些语料库扩展到包括大量资源匮乏的印度语言,并结合我们之前在非洲和美洲印第安语言方面的工作,创建覆盖世界各地大量语言的语料库。
Dec, 2023
本研究提出了 ERNIE-M 模型,采用反向翻译技术产生伪平行语料,从而增强跨语言模型的语义建模能力,并经过实验证明,相对现有跨语言模型,ERNIE-M 能够更好地适用于跨语言任务。
Dec, 2020
自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能,但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT,一个包含 15 种语言的新的平行语料库,同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集,通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。
Mar, 2024
介绍了 Bhinneka Korpus 这一多语种并行语料库,以增强印度尼西亚当地语言资源的获取和利用,并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。
Apr, 2024
提出了一种基于双语单词嵌入的翻译方法,以改善跨语言的 named-entity recognition 性能,并使用 self-attention 来提高鲁棒性。在对常见语言的测试中达到了最先进或具有竞争力的 NER 性能。
Aug, 2018
使用 eBible 语料库作为基准数据集,引入神经机器翻译模型性能基准,并考虑了多种与圣经翻译领域相关的问题,最终建立了一个适用于低资源语言的模型基准。
Apr, 2023
本文提出了一个简单而有效的跨语言理解模型来利用平行数据中的指代知识,该模型在 OntoNotes 5.0 英语数据集上使用 9 种不同的合成平行数据集实现了一致的提升,最高可达 1.74 个百分点。
May, 2023