Mar, 2025
迈向惠及所有人的大语言模型:奖励模型中的群体公平性基准测试
Towards Large Language Models that Benefit for All: Benchmarking Group
Fairness in Reward Models
TL;DR本研究针对大语言模型(LLMs)在不同人口群体中的公平性问题,特别是当前研究在非敏感属性一致性及偏见来源识别方面的局限。文中通过基准测试奖励模型的群体公平性,提出不必在不同群体间使用相同的提示问题,最终发现所评估的所有奖励模型均存在显著的群体不公平现象,提示性能最佳的模型通常具有更好的群体公平性。