Feb, 2025
离线强化学习中的行为正则化扩散策略优化
Behavior-Regularized Diffusion Policy Optimization for Offline
Reinforcement Learning
TL;DR本文解决了离线强化学习中出界行动的危险利用风险管理问题,提出了一种名为BDPO的行为正则化RL框架,专为扩散模型设计。该框架通过逆向时间转移核的KL正则化计算,提高了策略的表达能力和稳健性,并在合成2D任务和D4RL基准的连续控制任务中展现出卓越的性能和有效性。