Nov, 2024

交叉同情偏见与理解的定量评估

TL;DR本研究解决了基于松散定义的同情心操作化方式所带来的数据集质量和评估可靠性问题。我们提出了一种将同情心评估框架与心理学原理相结合的新方法,通过控制生成的提示中的社会偏见来评估大语言模型(LML)的反应差异。研究发现,虽然初步评估样本中的差异较小,但模型在推理链上有显著的变化,为未来的评估样本构建和结果测量提供了基础。