BriefGPT.xyz
大模型
Ask
alpha
关键词
goal-conditioned environments
搜索结果 - 1
AAAI
目标条件下的 Q 学习作为知识蒸馏
本篇论文研究了强化学习在目标条件环境下的表现,提出了一种基于知识蒸馏的 Q 值函数更新方法,可以显著提高高维度空间下的目标条件策略学习,同时在多目标学习中也可以有效应用。此外,本研究还提供了一些理论支持,表明所提出的方法只需要 O (d)
→
PDF
2 years ago
Prev
Next