人工智能对齐与社会选择:基本限制与政策影响
本文批评性地评估了通过强化学习从反馈中对齐人工智能系统,特别是大规模语言模型,与人的价值观和意图的尝试,包括人的反馈和人工智能的反馈。具体来说,我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判,我们考察了 RLxF 技术的理论基础和实践实现,揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。我们强调了 RLxF 目标中固有的张力和矛盾。此外,我们讨论了在关于对齐和 RLxF 的讨论中往往被忽视的道德相关问题,其中包括用户友好与欺骗、灵活性与可解释性、系统安全之间的权衡。我们最后敦促研究人员和从业者在评估 RLxF 的社会技术后果时进行批判性评估,倡导在人工智能开发中采用更细致、反思的方法。
Jun, 2024
强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术,但其自身存在的问题、局限性以及相关改进技术的概述,以及提出用于改善社会监督的审计和公开标准的重要性。
Jul, 2023
基金会模型的微调是为了避免不安全或有问题的行为,而利用人类反馈进行强化学习或采用宪法人工智能的方法,通过社会选择来处理潜在的人类意见分歧并影响模型的行为。
Apr, 2024
本文系统地研究了 RLHF 的社会影响,提出了七种 RLHF 的应用方式,分析了其对人类体验 AI 的积极影响,同时也探讨了 RLHF 可能带来的社会道德问题,以及其与人类相互作用的方面。因为 RLHF 引发的关注类似于现有 AI 技术引发的关注,因此需要对 RLHF 的采用进行审慎且有意识的考虑。
Mar, 2023
将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF(Alignment with Integrated Human Feedback)” 的单阶段方法,能够集成人类偏好和演示来训练奖励模型和策略,并通过大量实验证明该方法在语言模型和机器人控制问题的对齐中表现优于传统的强化学习算法如 RLHF 和 DPO,特别是当高质量偏好数据的数量相对有限时。
Jun, 2024
使用强化学习从人类反馈中提取人类偏好以获得模型行为的研究的限制,引用社会选择理论作为参考点。我们分析社会选择与强化学习从人类反馈的问题设置,确定它们之间的关键差异,并讨论这些差异如何影响社会选择中众所周知的技术结果的 RLHF 解释。
Apr, 2024
本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战,特别是针对训练总结文本的 LLMs。具体地,我们关注的是收集可靠人类反馈的方法,以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。
Dec, 2022
利用 Safe Reinforcement Learning from Human Feedback(Safe RLHF)算法,通过训练单独的奖励和成本模型,实现了对大型语言模型(LLMs)在帮助性和无害性上进行人类价值调整,以最大化奖励函数并满足成本约束条件;通过实验证明与现有的值对齐算法相比,Safe RLHF 在减轻有害回应的能力和提高模型性能方面更为优越。
Oct, 2023
通过 Democratic AI 方法,使用强化学习算法在参与者中探讨和设计社交机制来解决人工智能与人类价值观的对齐问题,有效缓解了财富分配不均,制止了搭便车行为并成功地赢得了大众的信任和认可。
Jan, 2022
用来自人类反馈的强化学习技术已经成为一个强大的工具,使得大型语言模型在复杂环境中更容易引导,更具能力。然而,由于奖励模型、策略模型和评估模型之间的不一致性,存在目标不匹配的问题。本文探讨了这个问题的原因,并回顾了相关的模型学习和强化学习文献。同时,讨论了激励解匹配之后的解决方案,以促进进一步的研究,从而使未来的语言模型更加准确地遵循用户的指令,提供更安全和有用的服务。
Oct, 2023