Jun, 2024

机器人学习中目标达成任务的恒定负奖励再探讨

TL;DR实验对比了最短时间任务和密集奖励任务的奖励范式,发现最短时间任务规定不仅有助于学习更高质量的策略,而且在性能指标上也能超越基于密集奖励的策略。关键是,我们还确定了初始策略的目标达成率在稀疏反馈设置中是学习成功的一个稳健的早期指标。最后,我们利用四个不同的真实机器人平台展示了使用常数负奖励在两到三小时内可以从头开始学习基于像素的策略。