CLAVE: 一种适应性框架用于评估LLM生成的回复的价值
通过使用价值理解测量框架(VUM) quantitatively评估“知道什么”和“知道为什么”,我们评估了五个典型的大型语言模型。结果显示,扩展法则显著影响“知道什么”,但对“知道为什么”的影响不大,而后者始终保持在较高的水平。这可能进一步表明,大型语言模型可能会根据提供的上下文构建合理的解释,但并不真正理解其中的内在价值,表明潜在的风险。
Sep, 2023
利用道德基金会理论,本研究探讨了伦理价值观,并提出了针对大型语言模型的价值漏洞的新型提示生成算法DeNEVIL,并构建了包含2,397个提示的高质量数据集MoralPrompt,使用VILMO进行伦理价值观的校准,在研究大型语言模型的伦理价值观方面取得了有前途的初步成果。
Oct, 2023
基于心理学方法研究,该论文通过提出ValueLex框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
本研究通过使用SummEval数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模型评估器以减轻这些限制的方法,通过RoSE数据集的实验证明了与最先进的大型语言模型评估器相比的改进。
May, 2024
介绍了ValueBench作为第一个综合性的心理测量基准,用于评估大型语言模型的价值取向和价值理解,并通过在人工智能与人类的实际互动中进行评估管道和开放性价值空间任务的实验,揭示了六个代表性大型语言模型的共同和独特的价值取向,展示了它们在价值相关的提取和生成任务中接近专家结论的能力。
Jun, 2024
该研究提出了GETA这一新颖的生成动态测试方法,通过动态地探测大型语言模型(LLMs)的道德基准,生成难度匹配的测试项目,并更准确地评估LLMs的价值观,为未来的评估范式奠定基础。
Jun, 2024
人类行为的基本驱动力是价值观。大型语言模型 (LLM) 技术不断向与人类对话类似的方向发展。然而,目前在研究 LLM 生成的文本中所展示的价值观方面的研究仍很少。本研究通过借鉴心理学中丰富的关于价值观结构的文献来探索这个问题。我们研究了LLM是否表现出与人类相同的价值观结构,包括价值观排序和价值观之间的相关性。我们展示出,对LLM进行提问的方式在结果上会产生较大差异,而在一种特定的提示策略下(称为“价值定锚”),与人类数据的一致性非常强烈。本研究结果不仅有助于提高我们对LLM中价值观的理解,还引入了新的评估LLM响应一致性的方法。
Jul, 2024
本研究解决了人类价值测量的空白,通过引入生成心理测量法(GPV),利用大型语言模型(LLM)进行数据驱动的价值测量。通过细调LLM并应用于人类创作的博客,证明了GPV在稳定性和有效性上的优势,并扩展到LLM的价值测量,揭示了不同价值体系对LLM安全性的预测能力。
Sep, 2024