BriefGPT.xyz
Ask
alpha
关键词
adaptive reachability mechanism
搜索结果 - 1
AAAI
CUDC: 一种基于好奇心驱动的自适应时间距离的离线强化学习的数据收集方法
该论文提出了一种基于好奇心驱动的无监督数据收集方法,通过自适应的时间距离扩展特征空间,从而提高多任务离线强化学习的效率和能力。该方法通过估计 k 步未来状态从当前状态可达的概率,并调整动力学模型预测的未来步数,实现自适应可达性机制,从而实现
→
PDF
7 months ago
Prev
Next