BriefGPT.xyz
Ask
alpha
关键词
sparse reward signals
搜索结果 - 3
用于单示范模仿学习的专家接近度作为替代奖励
单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解,在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中,该方法胜过现有的 IL 方法且达到专家级性能。
PDF
5 months ago
自我模仿学习中基于内在动机的探索改进方法研究
本文提出将内在动机与模仿学习相结合来优化探索行为,以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战,同时证明了在过程生成环境中,该方法可以取得优异的性能和更好的泛化能力,效率同等或更高。
PDF
2 years ago
游戏中学习 —— 从零开始解决稀疏奖励任务
本文介绍了计划辅助控制 (SAC-X),一种新的强化学习学习范例,它可以在多重稀疏奖励信号存在的情况下从零开始学习复杂的行为,并在具有挑战性的机器人控制环境中得到了实验证明。
PDF
6 years ago
Prev
Next