Oct, 2023

低资源语言的鲁棒情感分析:数据增强方法的案例研究(以马拉地语为例)

TL;DR本研究针对低资源语言马拉地语在情感分析领域存在的不足,提出了四种数据增强技术,包括释义、回译、基于 BERT 的随机词标替换、基于 GPT 的文本生成,这些方法在跨域准确性方面显著提升了性能,并可扩展到其他低资源语言和一般的文本分类任务。