Jan, 2025

多智能体游戏中的可修正性与对齐性

TL;DR本研究解决了自主智能体可修正性在多智能体系统设计中的不足,提出了一种将可修正性建模为双人游戏的通用框架,以引入人类信念的不确定性。关键发现表明,通过分析两种特定情况下的游戏设置,确定了防御智能体所需的人类理性信念,以有效促进可修正性的实现。