Oct, 2024

潜在权重扩散:从轨迹生成策略

TL;DR本研究解决了现有扩散政策在性能与行动时间范围之间的权衡问题,提出了一种新颖的潜在权重扩散方法(LWD),通过在潜在空间中学习策略分布,以生成更小的策略网络并减少推理查询。实验表明,在Metaworld MT10基准上,LWD在实现更高成功率的同时,推理模型规模可减少约18倍,且在较长行动时间范围内表现优于传统扩散政策。