Jun, 2024

从头学习多模态行为的扩散策略梯度

TL;DR本研究提出了深度扩散策略梯度(DDiffPG)算法,它能够学习参数化为扩散模型的多模态策略,并通过聚类和内在动机探索来发现和维持多样化行为,同时减少强化学习的贪婪性质,实现了模态之间的均衡改善以及对学习模态的显式控制。经验证明,该算法在复杂的高维连续控制任务中能够掌握多模态行为,并展示了在导航未知障碍迷宫中的动态在线重新规划的概念验证。