Oct, 2022

对比内省,识别强化学习中的关键步骤

TL;DR该论文提出了一种将离线对比学习结合强化学习技术来识别任务中关键步骤的算法ConSpec,它通过学习关键步骤的原型来提供信号奖励。该算法的原型具有两个关键的优势:它们能够快速地鉴别所有关键步骤,同时在感知特征被改变时很容易地进行分布外泛化。 ConSpec是一个可以添加到任何现有强化学习算法以提高性能的模块组件。