May, 2023

使用潜在扩散模型生成行为多样的策略

TL;DR本研究提出使用扩散模型来压缩行为多样性强化学习(QD-RL)中成千上万个策略,将存档压缩到单个生成模型中,达到 13 倍的压缩比例,同时恢复 98% 的原始奖励和 89% 的覆盖率。