BriefGPT.xyz
Ask
alpha
关键词
inference policy
搜索结果 - 1
通过扩散行为对得分正则化策略优化
我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法,利用后者在优化过程中直接规范化行为分布的评分函数,从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案,扩散建模的强大生成能力使我们的方法在 D4RL
→
PDF
9 months ago
Prev
Next