Jan, 2024

利用函数逼近进行实验规划

TL;DR我们研究了上下文强化学习中的函数逼近实验规划问题,针对数据收集过程存在较大开销的情况,我们提出了两种与函数逼近相容的实验规划策略。第一种是根据奖励函数类的边界维度实现的假设者规划和采样过程,可实现最优性保证。第二种是在动作数较小的情况下,我们证明了均匀采样器在实验规划中可以达到具有竞争性的最优性。最后,我们介绍了统计差距以详细阐述规划和自适应学习之间的基本差异,并提供了用于模型选择的实验规划结果。