EMNLPSep, 2021

不要丢弃所有有偏数据:研究数据集偏差缓解技术中的核心假设

TL;DR本研究证明了现有数据偏差缓解技术所采用的偏向模型检测偏向实例的假设是不准确的,因为在相当比例的情况下,主模型和偏向模型在处理偏向实例时存在显著差异。这一发现表明,降低偏向检测方法检测的实例的权重是一种不必要的训练数据浪费。