Jun, 2020

可证明高效的因果强化学习在混淆观察数据中

TL;DR本研究探讨如何将线下收集的观测数据纳入在线学习过程,提高深度强化学习在自动驾驶和个性化医疗等关键场景中的应用可行性,提出了去除混杂因素的乐观值迭代算法,并证明当混杂的观测数据更具信息量时,该算法能够比纯在线学习方法获得更小的后悔系数,是因果强化学习领域的重要一步。