评估和改进AI中的价值判断：一项基于场景的大型语言模型对社会约定的描述研究

Oct, 2023

评估和改进AI中的价值判断：一项基于场景的大型语言模型对社会约定的描述研究

Evaluating and Improving Value Judgments in AI: A Scenario-Based Study on Large Language Models' Depiction of Social Conventions

HTML

PDF

Jaeyoun You, Bongwon Suh

TL;DRAI产出如何产生更好的结果，社会如何将其描绘，以及在冲突价值情境中作出决策模型的研究与应用。

Abstract

The adoption of generative ai technologies is swiftly expanding. Services employing both linguistic and mul-timodal models are evolving, offering users increasingly precise responses. Consequently, human reliance

发现论文，激发创造

谁在思考？使用 XAI 操作手册推动以人为中心评估 LLMs

本文探讨了人类中心的大型语言模型评估，并提出了心理模型，用例使用价值和认知参与三个研究重点，旨在加速人类中心式大型语言模型评估的进展。

Mar, 2023

评估生成式人工智能系统对系统和社会的社会影响

本文提出了评估生成AI系统社会影响的标准方法与分类，并基于技术系统和社会分别探讨了七种与五个大类共计21个社会影响类别，并提出了对现有评估的限制进行分析的建议，并为AI研究社区建立了一个评估存储库来贡献现有的评估。

Jun, 2023

SurveyLM: 探索增强语言模型行为中新兴价值观的平台

该研究报告介绍了我们关于SurveyLM的工作，这是一个用于分析增强语言模型(ALMs)在复杂社交环境中以动态方式形成的态度和价值观的平台。通过应用传统研究社交行为的调查和实验方法，我们系统地评估ALMs，以提供对它们的对齐和新兴行为的前所未有的洞察力。此外，SurveyLM平台利用ALMs的反馈来增强调查和实验设计，加快了高质量调查框架的开发和测试，同时节约资源。通过SurveyLM，我们旨在揭示影响ALMs新兴行为的因素，促进其与人类意图和期望的对齐，从而为负责任地开发和部署先进的社交人工智能系统做出贡献。该白皮书强调了该平台提供可靠结果的潜力，突出了它对对齐研究的重要性以及对未来社交人工智能系统的影响。

Aug, 2023

超越人类规范：通过跨学科方法揭示大型语言模型的独特价值

基于心理学方法研究，该论文通过提出ValueLex框架，重建了大型语言模型（LLMs）的独特价值体系，并鉴定出了三个核心价值维度：能力、品格和诚信。同时，他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向，从而为未来的人工智能对齐和规范铺平了道路。

Apr, 2024

ValueBench: 面向全面评估大型语言模型的价值导向和理解能力

介绍了ValueBench作为第一个综合性的心理测量基准，用于评估大型语言模型的价值取向和价值理解，并通过在人工智能与人类的实际互动中进行评估管道和开放性价值空间任务的实验，揭示了六个代表性大型语言模型的共同和独特的价值取向，展示了它们在价值相关的提取和生成任务中接近专家结论的能力。

Jun, 2024

研究大型语言模型中的相似性判断的情境效应

本研究解决了大型语言模型（LLMs）与人类决策之间的对齐问题，特别是受到顺序偏差影响的相似性判断。通过复现经典的人类研究，本研究揭示了不同设定下LLMs展现出类人顺序效应偏差的现象，这为LLM基础应用的设计和开发提供了重要的启示。

Aug, 2024

价值指南针：人类与人工智能对齐的基本价值框架

本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论，对人类与语言模型的价值对齐进行了测量，发现存在潜在的风险性不对齐，强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。

Sep, 2024

基于生成心理测量法的人工智能和人类价值的测量

本研究解决了人类价值测量的空白，通过引入生成心理测量法（GPV），利用大型语言模型（LLM）进行数据驱动的价值测量。通过细调LLM并应用于人类创作的博客，证明了GPV在稳定性和有效性上的优势，并扩展到LLM的价值测量，揭示了不同价值体系对LLM安全性的预测能力。

Sep, 2024

道德图灵测试：评估人类与大语言模型在道德决策中的一致性

本研究旨在填补人类与大语言模型（LLM）在道德评估上的不一致性这一空白。研究者创建了一个人类与LLM生成的道德情境反应的大型语料库，发现LLM对道德判断的敏感性与人类不同，从而影响到对AI生成内容的接受程度。结果表明，尽管人类偏好LLM在道德场景中的评估，但存在系统性的反AI偏见，影响了评估结果。

Oct, 2024

LLM-GLOBE：评估大型语言模型中隐含的文化价值观的基准

本研究针对当前对大型语言模型（LLMs）文化价值观的研究不足，提出了LLM-GLOBE基准，以评估LLMs中的文化价值体系。通过采用新的“LLMs作为陪审团”的方法，研究比较了中美两国LLMs的文化价值观，结果显示东西方文化价值体系之间的异同，为后续的模型开发和评估提供了重要启示。

Nov, 2024