BriefGPT.xyz
Ask
alpha
关键词
sample-efficient exploration
搜索结果 - 3
ICML
在线决策转换器
本文提出了基于序列建模的决策转换器(ODT)算法,该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标,以实现高效的探索和调整。实验证明,在 D4RL 基准测试中,ODT 在绝对性能方面与最先进的方法具有竞争力,在微调过程中展
→
PDF
2 years ago
远视视野好奇心
本文针对未知 Markov 决策过程提出一种机器学习算法,采用序贯贝叶斯实验设计框架,通过基于轨迹优化的近似方法处理最优探寻问题,以在无先验知识的情况下探索未知环境,实现最优输入合成的系统识别。相比于其他以内在动机为基础的算法,该算法在收敛
→
PDF
5 years ago
ICML
基于差异性的自监督探索
提出了基于活跃学习文献中的一种探索式学习方法,该方法使用动态模型集成,通过最大化这些集成之间的差异性来训练智能体,从而使该智能体自我监督地学习技能,无需外部奖励,并且还利用该探索方法来优化代理的策略而不使用强化学习
PDF
5 years ago
Prev
Next