Nov, 2022

离线强化学习中的模型选择的 Oracle 不等式

TL;DR本文研究了离线强化学习(offline reinforcement learning)中,如何进行模型选择,并针对该问题设计了一种算法 ModBE,该算法可实现最优性保证、思路简单、计算高效,适用于在候选模型类中进行选择,并且以解决一系列平方损失回归问题及比较类别之间的相对平方损失为操作基础。