Feb, 2020

基于模型的强化学习中的目标不匹配

TL;DR本文研究模型驱动强化学习中的目标不匹配问题,通过探讨训练前向动力学模型的似然性和提高下游控制任务绩效之间的关系,发现单纯遵照似然性训练不一定能提高控制性能,提出一种缓解目标不匹配问题的方法并探讨了其他潜在的解决方案。