面向广泛覆盖的命名实体资源：多元语言数据高效方法

Jan, 2022

面向广泛覆盖的命名实体资源：多元语言数据高效方法

Towards a Broad Coverage Named Entity Resource: A Data-Efficient Approach for Many Diverse Languages

Silvia Severini, Ayyoob Imani, Philipp Dufter, Hinrich Schütze

TL;DR使用平行语料库和神经音译模型提取多语言命名实体资源，对于下游任务：知识图谱扩充和双语词典感应非常有效。

Abstract

parallel corpora are ideal for extracting a multilingual named entity (MNE) resource, i.e., a dataset of names translated into multiple languages. Prior work on extracting MNE datasets from →

parallel corpora multilingual named entity neural transliteration model knowledge graph augmentation bilingual lexicon induction

发现论文，激发创造

使用单语语料库进行神经机器翻译

本篇论文研究了如何利用丰富的单语语料库对神经机器翻译进行建模，结果表明在低资源的土耳其 - 英语和中英文聊天信息场景下，相较于短语和层级翻译，可以提高高达 1.96 和 1.59 的 BLEU 值，同时也适用于高资源语言，例如捷克语 - 英语和德语 - 英语，并成功提高了 0.39 和 0.47 个 BLEU 分数。

Mar, 2015

利用可比语料库诱导的双语词典进行低资源语言的神经机器翻译

本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子，证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。

Jun, 2018

使用平行语料库的跨语言命名实体识别：一种使用 XLM-RoBERTa 对齐的新方法

本文针对跨语言 NER 任务，提出了一种基于平行语料库的名词实体对齐模型，并在没有监督模型的情况下将 NER 从英语部分传递到目标语言中，以此获得更自然流畅和细微差别的数据集来提高模型性能，在 4 种目标语言的基准数据集上得到了具有竞争力的结果。

Jan, 2021

构建东北印度极低资源语言机器翻译平行语料的首次尝试

该论文介绍了为印度东北地区的十三种资源非常匮乏的语言创建初始的双语语料库，同时提供了这些语言的初始翻译结果。该论文还创建了这些语言的首个平行语料库，并提供了关于这些语言的基准神经机器翻译结果。我们打算将这些语料库扩展到包括大量资源匮乏的印度语言，并结合我们之前在非洲和美洲印第安语言方面的工作，创建覆盖世界各地大量语言的语料库。

Dec, 2023

通过单语语料库对跨语言语义进行对齐，增强多语言表示能力的 ERNIE-M 模型

本研究提出了 ERNIE-M 模型，采用反向翻译技术产生伪平行语料，从而增强跨语言模型的语义建模能力，并经过实验证明，相对现有跨语言模型，ERNIE-M 能够更好地适用于跨语言任务。

Dec, 2020

EthioMT：适用于低资源埃塞俄比亚语言的平行语料库

自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能，但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT，一个包含 15 种语言的新的平行语料库，同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集，通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。

Mar, 2024

构建和扩展印尼本地语言的低资源和代表性平行数据集

介绍了 Bhinneka Korpus 这一多语种并行语料库，以增强印度尼西亚当地语言资源的获取和利用，并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。

Apr, 2024

具有最少资源的神经跨语言命名实体识别

提出了一种基于双语单词嵌入的翻译方法，以改善跨语言的 named-entity recognition 性能，并使用 self-attention 来提高鲁棒性。在对常见语言的测试中达到了最先进或具有竞争力的 NER 性能。

Aug, 2018

eBible 语料库：为低资源语言的圣经翻译提供数据和模型基准

使用 eBible 语料库作为基准数据集，引入神经机器翻译模型性能基准，并考虑了多种与圣经翻译领域相关的问题，最终建立了一个适用于低资源语言的模型基准。

Apr, 2023

并行数据有助于神经实体共指消解

本文提出了一个简单而有效的跨语言理解模型来利用平行数据中的指代知识，该模型在 OntoNotes 5.0 英语数据集上使用 9 种不同的合成平行数据集实现了一致的提升，最高可达 1.74 个百分点。

May, 2023