Dec, 2023

基于分类的大型语言模型评估清单

TL;DR通过引入人类知识进行自然语言干预,本研究探索了预训练语言模型的行为特征,以性别偏见为背景,通过问答评估了模型的一致性、偏见倾向、模型偏好和性别偏好切换,并提供了首个基于人类知识的大语言模型偏见评估数据集。