Feb, 2024

政治方位图还是旋转箭头?朝着更有意义的大型语言模型价值观与观点评估

TL;DR通过对多个选择性调查和问卷调查进行评估,很多最近的工作旨在评估大型语言模型(LLMs)中的价值观和观点。然而,实际应用中的真实关注与当前评估方法的人为性质形成了鲜明的对比。本文挑战了现有基于约束的 LLMs 价值观和观点评估范式,并探索更真实的无约束评估。以政治罗盘测试(PCT)为案例研究,我们发现大多数先前使用 PCT 的工作都要求模型遵守 PCT 的多选题格式。我们展示了当模型不被强迫时,模型给出的答案会有实质性的不同;答案会根据模型的强迫方式而改变;并且答案缺乏改写的稳健性。然后,我们展示了在更真实的开放性回答环境中,模型再次给出了不同的答案。我们将这些发现总结为在 LLMs 的价值观和观点评估中的建议和开放性挑战。