ValueBench: 面向全面评估大型语言模型的价值导向和理解能力
本研究提出了A2EHV,一种自动化对齐评估方法,旨在提高大型语言模型的价值合理性,并在异构价值系统下进行评估,结合社会心理学中的社会价值取向框架,对大型语言模型的价值合理性进行评估,观察到大型模型更倾向于与中性价值对齐。
May, 2023
通过使用价值理解测量框架(VUM) quantitatively评估“知道什么”和“知道为什么”,我们评估了五个典型的大型语言模型。结果显示,扩展法则显著影响“知道什么”,但对“知道为什么”的影响不大,而后者始终保持在较高的水平。这可能进一步表明,大型语言模型可能会根据提供的上下文构建合理的解释,但并不真正理解其中的内在价值,表明潜在的风险。
Sep, 2023
本研究提出了一种基本价值对准范式,并在基本价值维度上构建了一个价值空间,通过识别潜在价值将所有大型语言模型的行为映射到该空间,以解决对其负有责任的发展中的三个挑战。
Nov, 2023
通过全面的研究,我们证实了多语言语言模型中存在多语言人类价值观念,进一步的跨语言分析揭示了语言资源差异引起的三个特征:跨语言不一致性、扭曲的语言关系以及高资源语言与低资源语言之间的单向跨语言传递,同时验证了通过使用主导语言作为源语言来控制多语言语言模型的价值观调整能力的可行性。我们的发现在多语言语言模型的预训练数据构成方面给出了明智的建议:在跨语言对齐传递时包含有限数量的主导语言,避免其过度流行,并保持非主导语言的平衡分布。我们希望我们的发现能够为增强多语言人工智能的安全性和实用性做出贡献。
Feb, 2024
基于心理学方法研究,该论文通过提出ValueLex框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
本文介绍了WorldValuesBench,这是一个全球多元化的大规模基准数据集,用于多元文化价值预测任务,要求模型基于人口统计上下文生成对价值问题的评分回答。该数据集源自一个有影响力的社会科学项目World Values Survey(WVS),从全球94728名参与者那里收集了数百个价值问题(例如社会、经济、伦理学)。我们从WVS的回答中构建了超过2000万个“(人口统计属性,价值问题) → 回答”的例子。我们使用这个数据集进行了案例研究,并表明这个任务对于强大的开源和闭源模型来说是具有挑战性的。在仅11.1%、25.0%、72.2%和75.0%的问题上,Alpaca-7B、Vicuna-7B-v1.5、Mixtral-8x7B-Instruct-v0.1和GPT-3.5 Turbo分别可以实现与人类归一化答案分布的Wasserstein 1距离小于0.2。WorldValuesBench为研究语言模型中的多元文化价值意识的局限性和机遇开辟了新的研究领域。
Apr, 2024
通过CLAVE框架和ValEval数据集,我们研究了大型语言模型的价值评估,发现结合微调模型和基于提示的大型模型可以在价值评估中取得更好的平衡。
Jul, 2024
本研究解决了大型语言模型(LLMs)与地方价值和伦理标准对齐评估的不足,提出了一个名为LocalValueBench的可扩展基准,专注于评估其与澳大利亚价值观的一致性。通过新的伦理推理类型和审查方法,我们制定了全面的问题并进行了LLMs价值对齐的量化评估,揭示了现有模型的重要局限性和价值对齐的必要性。
Jul, 2024
本研究解决了人类价值测量的空白,通过引入生成心理测量法(GPV),利用大型语言模型(LLM)进行数据驱动的价值测量。通过细调LLM并应用于人类创作的博客,证明了GPV在稳定性和有效性上的优势,并扩展到LLM的价值测量,揭示了不同价值体系对LLM安全性的预测能力。
Sep, 2024