Mar, 2024

可扩展的在线探索

TL;DR探索是强化学习中的一个主要挑战,该研究提出了探索目标 —— 一种能够使任何奖励函数最大化的政策优化目标,作为一个概念框架来系统研究探索。在这个框架中,引入了一个新的目标 $L_1$-Coverage,它推广了以前的探索方案并支持三个基本的愿望:内在复杂性控制、高效规划和高效探索。经验证实,$L_1$-Coverage 能够有效地驱动政策优化算法对状态空间进行探索。