Jun, 2024

ValueBench: 面向全面评估大型语言模型的价值导向和理解能力

TL;DR介绍了ValueBench作为第一个综合性的心理测量基准,用于评估大型语言模型的价值取向和价值理解,并通过在人工智能与人类的实际互动中进行评估管道和开放性价值空间任务的实验,揭示了六个代表性大型语言模型的共同和独特的价值取向,展示了它们在价值相关的提取和生成任务中接近专家结论的能力。