Jan, 2022

谁的语言算是高品质?测量文本数据选择中的语言意识形态

TL;DR本文使用美国高中学生撰写的报纸文章,研究了 GPT-3 质量筛选器偏向于哪些学校、地理区域和社会阶层的语言。研究发现质量筛选器的质量测量与事实和文学赞誉等合理指标不一致,强调任何语料库为高质量都涉及到语言意识形态,需要更谨慎地构建语言模型培训语料库,更好地明确各种文本的包含或排除的透明度和理由。