Jun, 2024

QueerBench:度量语言模型对酷儿身份的歧视

TL;DR通过使用我们的新评估框架 QueerBench,本文评估了英语大语言模型(LLMs)生成的句子完成对 LGBTQIA + 个体可能造成的潜在危害,并表明大型语言模型在对 LGBTQIA + 社群中的个体表现出更频繁的歧视行为,使得 QueerBench 有害性得分在 7.2% 的差距内增加。