BriefGPT.xyz
Ask
alpha
关键词
quality diversity reinforcement learning
搜索结果 - 2
使用潜在扩散模型生成行为多样的策略
本研究提出使用扩散模型来压缩行为多样性强化学习(QD-RL)中成千上万个策略,将存档压缩到单个生成模型中,达到 13 倍的压缩比例,同时恢复 98% 的原始奖励和 89% 的覆盖率。
PDF
a year ago
质量多样性强化学习的近端策略梯度树形结构
本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人,PPGA 算法在人形机器人领域实现了 4 倍的改进。
PDF
a year ago
Prev
Next