ProgressGym:对千年道德进步的对齐
本文介绍了ETHICS数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Aug, 2020
解决人工智能对齐问题需要明确且可靠的价值取向;本文提出了从道德哲学中提取的五个核心、基础价值观,即生存、可持续的代际存在、社会、教育和真理,并表明这些价值观不仅为技术对齐工作提供了更清晰的方向,还作为一个框架来突出人工智能系统对获取和维持这些价值观的威胁和机遇。
Nov, 2023
探讨实现AI系统中的终身超对齐所面临的挑战,特别是大型语言模型(LLMs);超对齐是一个理论框架,旨在确保超级智能AI系统按照人类的价值观和目标行动;我们认为实现超对齐需要对当前LLM体系结构进行重大改变,因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性;通过分析两个不同的例子,我们阐明LLM面对训练数据的限制,无法与当代人类价值观和情景相契合;最后,本文探讨了解决和可能减轻这种对齐差异的潜在策略,提出了追求更适应和响应性的AI系统的路径。
Mar, 2024
近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性,这被广泛称为对齐。然而,人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定,而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白,我们对2019年至2024年1月间发表的400多篇论文进行了系统综述,涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定,并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究,即确保人工智能系统产生由人类确定的预期结果,以及调整人类与人工智能对齐的概念,旨在帮助个人和社会在认知和行为上适应人工智能进展。此外,我们阐述了文献分析的关键发现,包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展,我们展望了未来方向的三个关键挑战,并提出了潜在的未来解决方案的例子。
Jun, 2024
本研究论文旨在探讨道德和人类价值观在人工智能研究中的重要性,并提出了一个名为Dynamic Normativity的框架来解决通过学习范式对人工智能系统进行对齐的问题。
Jun, 2024
本研究解决了现有语言模型在多样化政治任务中的适配性不足的问题。通过将文本生成模型与道德基础理论问卷对齐,我们发现现有模型在表现政治意识形态时的不足,提出了一种可测试的框架以改进基于道德价值声明的代理生成。这项工作预示着在社会互动模拟中的重要改进需求,促进未来生成更加政治细致的内容。
Aug, 2024
本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论,对人类与语言模型的价值对齐进行了测量,发现存在潜在的风险性不对齐,强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。
Sep, 2024
本研究解决了大型语言模型(LLM)代理在与人类价值观对齐时的有效方法问题。本文提出了一种新的奖励函数设计,明确编码人类核心价值观,利用内在奖励进行基于强化学习的模型微调。研究结果表明,这种内在奖励方法能够有效促进代理的道德对齐,并且比现有对齐技术更具透明性和成本效益。
Oct, 2024
本研究旨在填补人类与大语言模型(LLM)在道德评估上的不一致性这一空白。研究者创建了一个人类与LLM生成的道德情境反应的大型语料库,发现LLM对道德判断的敏感性与人类不同,从而影响到对AI生成内容的接受程度。结果表明,尽管人类偏好LLM在道德场景中的评估,但存在系统性的反AI偏见,影响了评估结果。
Oct, 2024