May, 2023

语言模型的新发现:在自然语言推理数据和模型中的鲁棒性 - 偏差互动

TL;DR本文提出了一种利用语言模型生成词汇变体、对抗性过滤和人工验证相结合的方法扩展现有的 Bias Benchmark for NLI (BBNLI) 测评数据集为 BBNLI-next,并介绍了能够区分模型误差类型的倾向度(bias)测量标准,说明了现有偏见分数存在的不足并提出了考虑到促进 / 反对刻板印象倾向和模型脆弱性的倾向度测量标准。