Jun, 2024

通过人类反馈进行强化学习的 AI 对齐?矛盾和限制

TL;DR本文批评性地评估了通过强化学习从反馈中对齐人工智能系统,特别是大规模语言模型,与人的价值观和意图的尝试,包括人的反馈和人工智能的反馈。具体来说,我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判,我们考察了 RLxF 技术的理论基础和实践实现,揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。我们强调了 RLxF 目标中固有的张力和矛盾。此外,我们讨论了在关于对齐和 RLxF 的讨论中往往被忽视的道德相关问题,其中包括用户友好与欺骗、灵活性与可解释性、系统安全之间的权衡。我们最后敦促研究人员和从业者在评估 RLxF 的社会技术后果时进行批判性评估,倡导在人工智能开发中采用更细致、反思的方法。