BriefGPT.xyz
Ask
alpha
关键词
bottleneck state discovery
搜索结果 - 1
MO2: 基于模型的离线选项
本研究提出了 Model-Based Offline Options(MO2) 算法,支持在连续的状态 - 动作空间中进行样本高效的瓶颈选项发现,以提高对转移域上的探索和值估计,实验结果表明,在复杂的长视程连续控制任务中,MO2 的特性是至
→
PDF
2 years ago
Prev
Next