Oct, 2023
多批次强化学习中的样本效率:对维度相关适应性的需求
Sample-Efficiency in Multi-Batch Reinforcement Learning: The Need for Dimension-Dependent Adaptivity
Emmeran Johnson, Ciara Pike-Burke, Patrick Rebeschini
TL;DR探索强化学习中样本效率和适应性之间的关系,通过使用学习框架来研究问题的策略评估和最佳策略识别中,使用 n 个查询的样本有效算法所需的批次数 K 存在最低限制为 Ω(log log d),并且仅有适应性并不能保证样本有效性。