Aug, 2024

对人类和模型的错误衡量:评估大型语言模型中的分配伤害

TL;DR本研究探讨了在高风险决策应用中,大型语言模型(LLMs)可能存在的偏见导致的分配伤害,通过提出Rank-Allocational-Based Bias Index (RABBI)度量,填补了现有偏见测量方法与实际决策使用之间的空白。研究表明,RABBI能有效捕捉分配结果中的群体差异,而常用的偏见指标则表现不佳,这强调了在资源有限的情况下对模型使用情境的重视。