Apr, 2024

借助 GPT 作为枢纽,减轻对资源匮乏的代码混合数据问题

TL;DR通过使用 GPT 3.5 生成非洲语言中的代码切换句子,我们发现非拉丁脚本语言(如约鲁巴语)生成的句子质量明显较低,与高阿非卡语 - 英语成功率相比。因此,我们提出了一个框架来增加合成代码切换数据的多样性,并建议利用这项技术缓解低资源语言的数据稀缺,强调本地说话者在这一过程中的关键作用。