Oct, 2024

面向多智能体大语言模型互动中的隐性偏见检测与缓解

TL;DR本研究旨在解决大型语言模型(LLMs)在多智能体互动中存在的隐性性别偏见问题。通过构建一个可能出现隐性偏见的数据集,并评估偏见程度,研究提出了两种效果显著的缓解策略:自我反思和监督微调。研究表明,这些方法有效减少了偏见,并且两者结合效果最佳。