Feb, 2024

LexC-Gen:利用大型语言模型和双语词典为极低资源语言生成数据

TL;DR利用双语词典从高资源语言的标记任务数据进行逐词翻译,可以解决低资源语言中的数据稀缺问题。然而,双语词典往往与任务数据的词汇重叠有限,导致翻译覆盖率和词典利用率较低。本文提出了一种称为词典条件生成(LexC-Gen)的方法,可以大规模生成低资源语言分类任务数据。通过从双语词典中使用高资源语言词汇生成与词典兼容的任务数据,然后通过词汇翻译将其转化为低资源语言。在 17 种极低资源语言中,LexC-Gen 生成的数据在情感分析和主题分类任务上相对于现有基于词典的词汇翻译方法平均提高了 5.6 和 8.9 个百分点。本文表明,在双语词典的条件下进行生成是 LexC-Gen 的关键组成部分。此外,LexC-Gen 具有实用性,只需要一块 GPU 就可以进行大规模数据生成。它与开放获取的 LLMs 配合良好,并且其成本只有基于 GPT4 进行多语言数据生成成本的五分之一。