Nov, 2022

低资源研究中的高资源方法学偏差

TL;DR本文研究了低资源 NLP 中数据不足和数据质量不佳的影响,通过探究 POS 标注和机器翻译这两种任务的实验结果,得出了从高资源语言进行降采样的做法会带来偏差,这表明简单地降采样将引入数据偏差,不应作为低资源 NLP 系统开发的唯一解决方案。