LexC-Gen：利用大型语言模型和双语词典为极低资源语言生成数据

Feb, 2024

LexC-Gen：利用大型语言模型和双语词典为极低资源语言生成数据

LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons

Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach

TL;DR利用双语词典从高资源语言的标记任务数据进行逐词翻译，可以解决低资源语言中的数据稀缺问题。然而，双语词典往往与任务数据的词汇重叠有限，导致翻译覆盖率和词典利用率较低。本文提出了一种称为词典条件生成（LexC-Gen）的方法，可以大规模生成低资源语言分类任务数据。通过从双语词典中使用高资源语言词汇生成与词典兼容的任务数据，然后通过词汇翻译将其转化为低资源语言。在 17 种极低资源语言中，LexC-Gen 生成的数据在情感分析和主题分类任务上相对于现有基于词典的词汇翻译方法平均提高了 5.6 和 8.9 个百分点。本文表明，在双语词典的条件下进行生成是 LexC-Gen 的关键组成部分。此外，LexC-Gen 具有实用性，只需要一块 GPU 就可以进行大规模数据生成。它与开放获取的 LLMs 配合良好，并且其成本只有基于 GPT4 进行多语言数据生成成本的五分之一。

Abstract

data scarcity in low-resource languages can be addressed with word-to-word translations from labeled task data in high-resource languages using bilingual lexicons. However, →

data scarcity low-resource languages bilingual lexicons lexicon-conditioned data generation word translation

发现论文，激发创造

Bilex Rx：大规模多语机器翻译的词汇数据增强

本文探讨使用双语词汇表在网络爬取的文本训练数据上进行无监督机器翻译的有效性，通过词汇数据增强，我们证明了其对于提升无监督翻译成果的重要性，并开源了 GATITOS，这是一个在 26 种低资源语言中表现最好的多语种词汇表。

Mar, 2023

低资源语言中使用多语情感词典的零样本情感分析

通过使用多语种词典进行预训练，本文在低资源语言中增强了多语种语言模型的功能，在 34 种语言中进行了零样本情感分析任务，包括 6 种高 / 中资源语言，25 种低资源语言和 3 个代码混合数据集。结果显示，使用多语种词典进行预训练能够实现更好的零样本性能，而不使用句级情感数据，相比于基于英文情感数据集和大语言模型如 GPT-3.5，BLOOMZ 和 XGLM 的微调模型。这些发现适用于涉及高资源语言的未知低资源语言到代码混合场景。

Feb, 2024

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

利用双语词典进行低资源半监督神经机器翻译

本研究提出了一种基于双语词典的数据增强技术，使得机器翻译模型能够扩展词汇表而不会影响低资源环境下的合成句子的质量，我们的方法在性能上表现出可观的改进。

Apr, 2020

LexGen：领域感知的多语言词典生成

提出了一个新模型来生成多领域环境下六种印度语言的词典词汇，该模型包括特定领域和通用领域层，通过可学习的路由技术调用这些层，同时还提出了一种利用这些印度语言之间相关性实现连贯翻译的方法。还发布了一组跨越八个不同领域的六种印度语言的基准数据集，以促进进一步的领域特定词库归纳研究，并在多个领域进行了零样本和少样本实验，展示了我们提出的模型在泛化到未见领域和未见语言上的效果。

May, 2024

XWikiGen：低资源语言百科文本生成的跨语言摘要

本研究针对缺乏百科全书文本贡献者的问题，提出了一种基于多语言参考文章的跨语言多文档摘要生成任务，同时建立了一个基准数据集，并提出了一种基于神经网络的有监督和无监督摘要生成系统，实验表明多领域的训练要优于多语言的设置。

Mar, 2023

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024

GlossLM：面向低资源的多语言预训练用于语言互译注释

我们编译了最大的现有的跨语言翻译数据语料库，从多个来源收集了超过 450k 个样例，覆盖了 1.8k 种语言，以便进行跨语言转移和跨语言翻译生成的研究。然后，我们对这个语料库的部分内容进行大规模多语言模型预训练，并进一步对特定语言进行微调。我们的模型在分词数据和大型单语数据集上与最先进的方法相比具有竞争力，同时在未分词的文本和小型语料库上的形态准确性方面超过 SOTA 模型高达 6.6％，证明了跨语言转移对于资源稀缺的语言的有效性。

Mar, 2024

通过基于词典的适应扩展预训练模型以覆盖数千种更多语言

本文探究了利用双语词典作为文本资源，从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据，通过不同策略合成文本或标注数据，并与单语文本或平行文本相结合，以提高在三个任务上 19 种欠发达语言的性能，为千余种使用 NLP 技术的欠代表语种提供了思路。

Mar, 2022