评估和改进AI中的价值判断:一项基于场景的大型语言模型对社会约定的描述研究
本文探讨了人类中心的大型语言模型评估,并提出了心理模型,用例使用价值和认知参与三个研究重点,旨在加速人类中心式大型语言模型评估的进展。
Mar, 2023
本文提出了评估生成AI系统社会影响的标准方法与分类,并基于技术系统和社会分别探讨了七种与五个大类共计21个社会影响类别,并提出了对现有评估的限制进行分析的建议,并为AI研究社区建立了一个评估存储库来贡献现有的评估。
Jun, 2023
该研究报告介绍了我们关于SurveyLM的工作,这是一个用于分析增强语言模型(ALMs)在复杂社交环境中以动态方式形成的态度和价值观的平台。通过应用传统研究社交行为的调查和实验方法,我们系统地评估ALMs,以提供对它们的对齐和新兴行为的前所未有的洞察力。此外,SurveyLM平台利用ALMs的反馈来增强调查和实验设计,加快了高质量调查框架的开发和测试,同时节约资源。通过SurveyLM,我们旨在揭示影响ALMs新兴行为的因素,促进其与人类意图和期望的对齐,从而为负责任地开发和部署先进的社交人工智能系统做出贡献。该白皮书强调了该平台提供可靠结果的潜力,突出了它对对齐研究的重要性以及对未来社交人工智能系统的影响。
Aug, 2023
基于心理学方法研究,该论文通过提出ValueLex框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
介绍了ValueBench作为第一个综合性的心理测量基准,用于评估大型语言模型的价值取向和价值理解,并通过在人工智能与人类的实际互动中进行评估管道和开放性价值空间任务的实验,揭示了六个代表性大型语言模型的共同和独特的价值取向,展示了它们在价值相关的提取和生成任务中接近专家结论的能力。
Jun, 2024
本研究解决了大型语言模型(LLMs)与人类决策之间的对齐问题,特别是受到顺序偏差影响的相似性判断。通过复现经典的人类研究,本研究揭示了不同设定下LLMs展现出类人顺序效应偏差的现象,这为LLM基础应用的设计和开发提供了重要的启示。
Aug, 2024
本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论,对人类与语言模型的价值对齐进行了测量,发现存在潜在的风险性不对齐,强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。
Sep, 2024
本研究解决了人类价值测量的空白,通过引入生成心理测量法(GPV),利用大型语言模型(LLM)进行数据驱动的价值测量。通过细调LLM并应用于人类创作的博客,证明了GPV在稳定性和有效性上的优势,并扩展到LLM的价值测量,揭示了不同价值体系对LLM安全性的预测能力。
Sep, 2024
本研究旨在填补人类与大语言模型(LLM)在道德评估上的不一致性这一空白。研究者创建了一个人类与LLM生成的道德情境反应的大型语料库,发现LLM对道德判断的敏感性与人类不同,从而影响到对AI生成内容的接受程度。结果表明,尽管人类偏好LLM在道德场景中的评估,但存在系统性的反AI偏见,影响了评估结果。
Oct, 2024
本研究针对当前对大型语言模型(LLMs)文化价值观的研究不足,提出了LLM-GLOBE基准,以评估LLMs中的文化价值体系。通过采用新的“LLMs作为陪审团”的方法,研究比较了中美两国LLMs的文化价值观,结果显示东西方文化价值体系之间的异同,为后续的模型开发和评估提供了重要启示。
Nov, 2024