Aug, 2023

CALM:一个综合评估语言模型偏见的多任务基准

TL;DR评估语言模型偏见的全面评估基准数据集(CALM)是用于量化与比较语言模型社会人口统计偏见的重要资源,通过整合现有数据集并构建包含 78,400 个样例的 244 个模板的数据集,CALM 数据集更具多样性和可靠性,能更好地评估语言模型的广度和偏见。