Jun, 2024

QueerBench:度量语言模型对酷儿身份的歧视

TL;DR通过使用我们的新评估框架QueerBench,本文评估了英语大语言模型(LLMs)生成的句子完成对LGBTQIA+个体可能造成的潜在危害,并表明大型语言模型在对LGBTQIA+社群中的个体表现出更频繁的歧视行为,使得QueerBench有害性得分在7.2%的差距内增加。