Jun, 2024

约束强化学习的平均奖励目标:基于模型和无模型算法

TL;DR在这份研究论文中,通过系统研究了强化学习(Reinforcement Learning)在约束条件下的模型方法和无模型方法,着重分析了平均奖励随机决策过程中乐观和后验取样的基础方法以及参数化模型无关方法,同时在解决约束决策过程中提供遗憾保证和约束违规分析。同时,还探讨了在弱通信随机决策过程中的结果,扩大了研究结果的适用范围。