Sep, 2024

将一致性策略推广到带有优先近端经验正则化的视觉强化学习

TL;DR本研究针对视觉强化学习中的低样本效率和训练稳定性问题,提出了一种样本基础的熵正则化方法,旨在稳定策略训练。通过优先近端经验正则化(CP3ER),该方法在DeepMind控制套件和Meta-world的21个任务中实现了新的最先进(SOTA)性能,首次将一致性模型应用于视觉强化学习,展示了其潜力。