ACLOct, 2021

BBQ: 一个手工制作的问答偏见基准

TL;DR该研究旨在通过提出一种基准数据集 —— 即 Bias Benchmark for QA(BBQ)来测试 NLP 模型的社会偏见。研究发现当上下文信息不充分时,模型通常依赖于固有的刻板印象,导致输出结果中仍存在有害偏见。同时,即便给出充分信息,模型依然受固有偏见的影响,在正确答案与社会偏见相冲突时的准确率差异可高达 5 个百分点。