Sep, 2024

语言模型中真相与政治偏见的关系研究

TL;DR本研究探讨了语言模型校准中真相与政治偏见之间的关系,特别是如何在优化真相性与无偏见性时可能影响彼此。研究发现,针对真相性进行优化的奖励模型通常呈现出左倾的政治偏见,这一发现对真相性数据集的选择及其对政治的反映提出了重要质疑。