BriefGPT.xyz
大模型
Ask
alpha
关键词
deep diffusion policy gradient
搜索结果 - 1
从头学习多模态行为的扩散策略梯度
本研究提出了深度扩散策略梯度(DDiffPG)算法,它能够学习参数化为扩散模型的多模态策略,并通过聚类和内在动机探索来发现和维持多样化行为,同时减少强化学习的贪婪性质,实现了模态之间的均衡改善以及对学习模态的显式控制。经验证明,该算法在复杂
→
PDF
a month ago
Prev
Next