Oct, 2023

多批次强化学习中的样本效率:对维度相关适应性的需求

TL;DR探索强化学习中样本效率和适应性之间的关系,通过使用学习框架来研究问题的策略评估和最佳策略识别中,使用 n 个查询的样本有效算法所需的批次数 K 存在最低限制为 Ω(log log d),并且仅有适应性并不能保证样本有效性。