BriefGPT.xyz
Mar, 2024
可扩展的在线探索
Scalable Online Exploration via Coverability
HTML
PDF
Philip Amortila, Dylan J. Foster, Akshay Krishnamurthy
TL;DR
探索是强化学习中的一个主要挑战,该研究提出了探索目标——一种能够使任何奖励函数最大化的政策优化目标,作为一个概念框架来系统研究探索。在这个框架中,引入了一个新的目标$L_1$-Coverage,它推广了以前的探索方案并支持三个基本的愿望:内在复杂性控制、高效规划和高效探索。经验证实,$L_1$-Coverage能够有效地驱动政策优化算法对状态空间进行探索。
Abstract
Exploration is a major challenge in
reinforcement learning
, especially for high-dimensional domains that require function approximation. We propose
exploration objectives
--
→