Apr, 2024

强化学习的双重视角对政策约束的施加

TL;DR通过使用一种通用的原始对偶框架,将经典优化和控制理论与基于值和演员-评论家强化学习方法结合,本研究旨在统一和整合现有技术,并为学习的策略施加附加约束。构建出的$ exttt{DualCRL}$算法支持各种策略约束的组合,在训练过程中使用可训练的奖励修改实现自动处理,实验证明了该方法的有效性,并为系统设计者提供了多种策略约束的工具箱。