May, 2022

为何如此悲观?通过集成估计离线 RL 的不确定性以及为何独立性很重要

TL;DR本研究中,我们提出了一种名为 MSG 的实用的离线强化学习算法,该算法针对每个 ensemble member 独立计算目标,利用预测值的下限来优化策略,并在流行的离线 RL 基准测试中表现出优异的性能。