Apr, 2024

超越人类规范:通过跨学科方法揭示大型语言模型的独特价值

TL;DR基于心理学方法研究,该论文通过提出 ValueLex 框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析 LLMs 在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。