大型语言模型中评估态度、观点和价值的潜力与挑战

Jun, 2024

大型语言模型中评估态度、观点和价值的潜力与挑战

The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models

Bolei Ma, Xinpeng Wang, Tiancheng Hu, Anna-Carolina Haensch, Michael A. Hedderich...

TL;DR近年来，大型语言模型（LLMs）的最新进展引发了人们对验证和理解LLMs可能具有的类人认知行为特质（Attitudes，Opinions，Values）的广泛兴趣。然而，测量嵌入在LLMs中的AOV仍然模糊不清，不同的评估方法可能得出不同的结果。本文旨在通过概述最近对LLMs中AOV评估的研究工作来弥合这一差距。此外，我们还调查了这些研究工作中评估流程不同阶段的相关方法。通过这样做，我们解决了了解模型、人工智能与人类的协同以及在社会科学中的下游应用方面的潜力与挑战。最后，我们提供了对评估方法、模型改进和跨学科合作的实际见解，从而为评估LLMs中的AOV的不断发展的领域做出贡献。

Abstract

Recent advances in large language models (LLMs) have sparked wide interest in validating and comprehending the human-like cognitive-behavioral traits LLMs may have. These →

发现论文，激发创造

大型语言模型的异构价值评估

本研究提出了A2EHV，一种自动化对齐评估方法，旨在提高大型语言模型的价值合理性，并在异构价值系统下进行评估，结合社会心理学中的社会价值取向框架，对大型语言模型的价值合理性进行评估，观察到大型模型更倾向于与中性价值对齐。

May, 2023

从价值到观点：利用注入价值的大型语言模型预测人类行为和立场

利用价值注入的大型语言模型(VIM)预测意见和行为的可行性与效果进行了系列实验，结果显示使用价值注入的大型语言模型可更好地预测人们的意见和行为，而且通过注入人类核心价值的变种，其性能显著优于基准方法。

Oct, 2023

运行大型语言模型上的认知评估：要注意的事项和不要做的事项

本文描述了评估使用基于语言的行为评估方法来评估大型语言模型（LLMs）认知能力的研究方法考虑因素。作者通过三个案例研究（常识知识基准、心理理论评估和语法一致性测试）描述了在将认知测试应用于LLM时可能出现的常见问题。作者还列出了10个应避免和遵循的指导方针，以帮助设计高质量的人工智能系统的认知评估。最后讨论了当前正在讨论的四个领域 - 提示的敏感性、文化和语言多样性、使用LLMs作为研究助理、以及对开放和封闭LLMs进行评估。总之，本文旨在为快速发展的AI心理学领域中的最佳实践做出贡献。

Dec, 2023

政治方位图还是旋转箭头？朝着更有意义的大型语言模型价值观与观点评估

通过对多个选择性调查和问卷调查进行评估，很多最近的工作旨在评估大型语言模型（LLMs）中的价值观和观点。然而，实际应用中的真实关注与当前评估方法的人为性质形成了鲜明的对比。本文挑战了现有基于约束的LLMs价值观和观点评估范式，并探索更真实的无约束评估。以政治罗盘测试（PCT）为案例研究，我们发现大多数先前使用PCT的工作都要求模型遵守PCT的多选题格式。我们展示了当模型不被强迫时，模型给出的答案会有实质性的不同；答案会根据模型的强迫方式而改变；并且答案缺乏改写的稳健性。然后，我们展示了在更真实的开放性回答环境中，模型再次给出了不同的答案。我们将这些发现总结为在LLMs的价值观和观点评估中的建议和开放性挑战。

Feb, 2024

超越人类规范：通过跨学科方法揭示大型语言模型的独特价值

基于心理学方法研究，该论文通过提出ValueLex框架，重建了大型语言模型（LLMs）的独特价值体系，并鉴定出了三个核心价值维度：能力、品格和诚信。同时，他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向，从而为未来的人工智能对齐和规范铺平了道路。

Apr, 2024

ValueBench: 面向全面评估大型语言模型的价值导向和理解能力

介绍了ValueBench作为第一个综合性的心理测量基准，用于评估大型语言模型的价值取向和价值理解，并通过在人工智能与人类的实际互动中进行评估管道和开放性价值空间任务的实验，揭示了六个代表性大型语言模型的共同和独特的价值取向，展示了它们在价值相关的提取和生成任务中接近专家结论的能力。

Jun, 2024

大型语言模型人类偏好学习综述

本综述从以偏好为中心的角度回顾了探索大型语言模型（LLMs）的人类偏好学习的进展，包括偏好反馈的来源和格式，偏好信号的建模和使用，以及对齐LLMs的评估。

Jun, 2024

将模型评估与人类偏好对齐：减轻语言模型评估中的词汇计数偏差

使用SLAM展示，在设备上的小型语言模型是与基于API的大型语言模型（如OpenAI的GPT-4）相比，一种可行且成本效益高的替代方案，具有可比的性能和稳定性。这份后续研究详细探讨了如何通过解决偏向高标记数的偏差，来调整LLM评估器与人类评估的偏好之间的差异问题。通过采用贝叶斯统计和t检验来量化此偏差，并开发出重新校准GPTScorer的过程，我们的研究结果在多个应用案例中，显著改进了重新校准的LLM评估器与人类评估之间的斯皮尔曼等级相关分数，例如，在推荐系统的案例中，从-27.27提高到44.55。这些结果强调了在自动化评估中考虑偏差的重要性，以确保公正准确的模型评估。重新校准过程提高了自动评估器的可靠性，从而产生与人类价值观和期望相一致的更好的AI模型。该研究为未来的偏差校正研究提供了强有力的方法，并强调了开发与人类一致的AI评估系统的可行性和益处。

Jul, 2024

研究大型语言模型中的相似性判断的情境效应

本研究解决了大型语言模型（LLMs）与人类决策之间的对齐问题，特别是受到顺序偏差影响的相似性判断。通过复现经典的人类研究，本研究揭示了不同设定下LLMs展现出类人顺序效应偏差的现象，这为LLM基础应用的设计和开发提供了重要的启示。

Aug, 2024

基于生成心理测量法的人工智能和人类价值的测量

本研究解决了人类价值测量的空白，通过引入生成心理测量法（GPV），利用大型语言模型（LLM）进行数据驱动的价值测量。通过细调LLM并应用于人类创作的博客，证明了GPV在稳定性和有效性上的优势，并扩展到LLM的价值测量，揭示了不同价值体系对LLM安全性的预测能力。

Sep, 2024