Jan, 2024

解释性概念瓶颈以对齐强化学习智能体

TL;DR深度强化学习中,奖励稀疏性、难以归因的信用分配以及错位等问题使得深度强化学习代理无法学习到最优策略。为了解决这个问题,我们引入了连续概念瓶颈代理(SCoBots),通过整合连续的概念瓶颈层使整个决策过程变得透明,使得领域专家能够理解和纠正模型的错误行为,并证明 SCoBots 能够实现更好的与人类一致的强化学习。通过在 Pong 等视频游戏中的应用,SCoBots 帮助我们识别和解决了错位问题。