多语种模型有效获取注释

ACLApr, 2022

On Efficiently Acquiring Annotations for Multilingual Models

Joel Ruben Antony Moniz, Barun Patra, Matthew R. Gormley

TL;DR本研究通过采用单一模型在多语种数据上进行联合学习的策略，比起传统的在每种语言上单独训练模型和通过高资源语言进行零样本迁移的方法，性能显著提高。同时，主动学习可以进一步提高数据利用率。在 4 种和 5 种语言的分类、序列标注和句法分析任务中，该方法表现出了显著优越性，在有限的预算下构建多语种模型的可行性得到了很大提高。

Abstract

When tasked with supporting multiple languages for a given problem, two approaches have arisen: training a model for each language with the annotation budget divided equally among them, and training on a high-resource language followed by zero-shot transfer to the remaining languages. In this work, we show that the strategy of →

multilingual learning joint learning active learning data efficiency model performance

发现论文，激发创造

低资源神经机器翻译的高性价比训练

提出了一种利用自监督学习和小规模词典来初始化神经机器翻译（NMT）模型，在初始化后使用主动学习策略提高低资源条件下（如稀缺语言）翻译模型性能的方法，并提出了一种基于领域适应的新型主动学习策略。除此之外，我们还表明，使用这种初始化方法和主动学习策略可相比于传统方法提高最多 13 个 BLEU 点。

Jan, 2022

少量的注释带来大量的好处：低资源命名实体识别器自举的研究

该研究探讨了在资源匮乏的语言中高效创建高质量实体识别器的最有效方法，通过运用跨语言转移、有针对性注释同属于两种策略的方法，实现在小数据集下快速精确识别实体的结果。

Aug, 2019

多语言和跨语言文档分类：元学习方法

该论文提出了一种元学习方法，可以在有限资源的情况下进行文档分类，并在少量标记数据的情况下取得了较好的效果，涉及跨语言、多语言的情况。作者还对多个元学习方法进行了比较和调整，提出了一种简单且有效的调整方式，并在多语言上取得了新的最佳表现。

Jan, 2021

多语言基于实例的语言学习中的经验教训

研究了多语言学习模型在何种条件下能够表现出更好的视觉语义嵌入，结果表明多语种训练比双语种训练有更好的效果，低资源语言受益于高资源语言的训练，注释同一组图像的多种语言获得了额外的提升。

Sep, 2018

使用双语词典进行标注低资源语言的模型转移

本研究提出了一种新颖的基于跨语言词向量的神经网络模型，通过高覆盖的双语词典训练，利用跨语言模型转移的方法，针对低资源语言的注释预测问题提出了解决方案，并通过多种主动学习启发式方法，提升了该方法的性能。

May, 2017

不同标注数量下的学习：从零到多标签

该研究论文通过在一小部分训练样例中为每个样例分配多个标签的方法，提出可通过利用不同标注数量的训练样例，设计高效的学习算法，提高自然语言处理的任务表现。

Sep, 2021

循环中的 LLM：利用大型语言模型注释在低资源语言中进行主动学习

通过在主动学习环路中利用 LLM 的潜力进行数据标注，我们的提议在极低的数据需求下显著提高了性能，为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟，促进更广泛的包容，并有潜力在不同的语言环境中实现自动化。

Apr, 2024

零资源环境中跨语言序列标注的模型和数据传递

本文通过实验证明使用高容量多语言语言模型应用于零样本（基于模型的跨语言转移）情况下能够比基于数据转移更好地执行跨语言序列标注，这可能是由于语言使用的重要差异所致。

Oct, 2022

揭示多注释过程：以注释数量和样本难度对模型性能的影响为例

多次注释数据集的性能分数可能会因数据集扩大，从单个注释变为多个注释而有所不同，我们的研究挑战了传统观念，表明使用多次注释的模型并不总能比使用少次或单次注释的模型具有更好的性能。

Oct, 2023

多语言词性标注：两种无监督方法

通过多语言学习，并运用层次贝叶斯模型和马尔可夫蒙特卡洛采样技术，我们证明了在无监督词性标注中应用多语言学习的有效性，且在可用语言数量增加时，性能稳定提升。

Jan, 2014