基于生成心理测量法的人工智能和人类价值的测量
本研究提出了A2EHV,一种自动化对齐评估方法,旨在提高大型语言模型的价值合理性,并在异构价值系统下进行评估,结合社会心理学中的社会价值取向框架,对大型语言模型的价值合理性进行评估,观察到大型模型更倾向于与中性价值对齐。
May, 2023
通过使用价值理解测量框架(VUM) quantitatively评估“知道什么”和“知道为什么”,我们评估了五个典型的大型语言模型。结果显示,扩展法则显著影响“知道什么”,但对“知道为什么”的影响不大,而后者始终保持在较高的水平。这可能进一步表明,大型语言模型可能会根据提供的上下文构建合理的解释,但并不真正理解其中的内在价值,表明潜在的风险。
Sep, 2023
本研究提出了一种基本价值对准范式,并在基本价值维度上构建了一个价值空间,通过识别潜在价值将所有大型语言模型的行为映射到该空间,以解决对其负有责任的发展中的三个挑战。
Nov, 2023
基于心理学方法研究,该论文通过提出ValueLex框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
介绍了ValueBench作为第一个综合性的心理测量基准,用于评估大型语言模型的价值取向和价值理解,并通过在人工智能与人类的实际互动中进行评估管道和开放性价值空间任务的实验,揭示了六个代表性大型语言模型的共同和独特的价值取向,展示了它们在价值相关的提取和生成任务中接近专家结论的能力。
Jun, 2024
近年来,大型语言模型(LLMs)的最新进展引发了人们对验证和理解LLMs可能具有的类人认知行为特质(Attitudes,Opinions,Values)的广泛兴趣。然而,测量嵌入在LLMs中的AOV仍然模糊不清,不同的评估方法可能得出不同的结果。本文旨在通过概述最近对LLMs中AOV评估的研究工作来弥合这一差距。此外,我们还调查了这些研究工作中评估流程不同阶段的相关方法。通过这样做,我们解决了了解模型、人工智能与人类的协同以及在社会科学中的下游应用方面的潜力与挑战。最后,我们提供了对评估方法、模型改进和跨学科合作的实际见解,从而为评估LLMs中的AOV的不断发展的领域做出贡献。
Jun, 2024
通过CLAVE框架和ValEval数据集,我们研究了大型语言模型的价值评估,发现结合微调模型和基于提示的大型模型可以在价值评估中取得更好的平衡。
Jul, 2024
人类行为的基本驱动力是价值观。大型语言模型 (LLM) 技术不断向与人类对话类似的方向发展。然而,目前在研究 LLM 生成的文本中所展示的价值观方面的研究仍很少。本研究通过借鉴心理学中丰富的关于价值观结构的文献来探索这个问题。我们研究了LLM是否表现出与人类相同的价值观结构,包括价值观排序和价值观之间的相关性。我们展示出,对LLM进行提问的方式在结果上会产生较大差异,而在一种特定的提示策略下(称为“价值定锚”),与人类数据的一致性非常强烈。本研究结果不仅有助于提高我们对LLM中价值观的理解,还引入了新的评估LLM响应一致性的方法。
Jul, 2024
本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论,对人类与语言模型的价值对齐进行了测量,发现存在潜在的风险性不对齐,强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。
Sep, 2024