Mar, 2024

顺序任务设置中最小化局部遗憾的谬误

TL;DR强化学习中,研究任务间具有变化时,通过最小化后悔累积可以实现更好的结果,即在每个任务中过度探索,尤其在任务之间出现重大变化时。