Oct, 2023
多批次强化学习中的样本效率:对维度相关适应性的需求
Sample-Efficiency in Multi-Batch Reinforcement Learning: The Need for
Dimension-Dependent Adaptivity
TL;DR探索强化学习中样本效率和适应性之间的关系,通过使用学习框架来研究问题的策略评估和最佳策略识别中,使用n个查询的样本有效算法所需的批次数K存在最低限制为Ω(log log d),并且仅有适应性并不能保证样本有效性。