May, 2025

克服低资源语言生成语言建模中的数据稀缺:系统性回顾

TL;DR本研究针对生成语言建模中低资源语言的数据稀缺问题进行了系统性回顾,识别和评估了54项研究中提出的技术策略,包括单语数据增强、反向翻译、多语言训练和提示工程。研究发现,当前方法主要依赖基于变换器的模型,集中于少数低资源语言,并且评估方法不一致,提出了拓展这些方法的建议,以支持更广泛的低资源语言的生成模型构建。