Sep, 2024
将一致性策略推广到带有优先近端经验正则化的视觉强化学习
Generalizing Consistency Policy to Visual RL with Prioritized Proximal
Experience Regularization
TL;DR本研究针对视觉强化学习中的低样本效率和训练稳定性问题,提出了一种样本基础的熵正则化方法,旨在稳定策略训练。通过优先近端经验正则化(CP3ER),该方法在DeepMind控制套件和Meta-world的21个任务中实现了新的最先进(SOTA)性能,首次将一致性模型应用于视觉强化学习,展示了其潜力。