EMNLPMay, 2022

利用预训练语言模型检测标签错误

TL;DR该研究表明,大型预训练语言模型本质上具有高度识别自然语言数据集中标签错误的能力:仅通过按微调任务损失的降序检查样本数据点,可显著优于先前工作中提出的更复杂的错误检测机制。此外,研究对引入 SNLI 和 TweetNLP 等现有众包数据集中真实的、人工标记噪声提出了一种新方法,证明该噪声具有类似于真实手动验标错误的属性,并且比现有的合成噪声更难以检测,因此将人工起源噪声作为评估标准更好。最后,使用众包验证评估在 IMDB、Amazon 评论和 Recon 中实际错误的检测,并确认预训练模型的绝对精度召回曲线下面积比现有模型高 9-36%。