Apr, 2020

可控行为的弱监督强化学习

TL;DR本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明,这种学习到的子空间可实现高效探索,并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升,特别是在环境复杂性增加的情况下。