Oct, 2023

通过扩散行为对得分正则化策略优化

TL;DR我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法,利用后者在优化过程中直接规范化行为分布的评分函数,从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案,扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上,同时仍保持着最先进的性能。