可证明的好的无须强探索批量强化学习
本篇论文提出了针对离线、批处理强化学习中连续状态和动作空间的新型策略搜索算法,这些算法包括第一和第二阶策略梯度以及Newton算法,并且在梯度和代价向量中同时实现了偏差估计。该论文在一个简单的一维连续状态空间问题上证明了算法的实用性。
Mar, 2014
本文涵盖了两种用于近似Q星算法在批量强化学习中表现的性能保证,并与传统的迭代方法进行了比较,证明了这些方法可以通过估计贝尔曼误差,仅依靠批数据和输出静态策略的算法,享受与任务无关的线性迭代时间性质。 其中一种算法使用了新颖而明确的重要性加权校正,以克服贝尔曼误差估计中的“双重抽样”难题,并且没有使用任何平方损失。 我们的分析揭示了与传统算法相比,其不同的特点和潜在优势。
Mar, 2020
该研究提出了一种batch reinforcement learning的学习算法BVFT,通过一种基于比较和分区的机制使得学习效率更高并且适用于其他问题和扩展。
Aug, 2020
本文介绍了在具有线性函数表示的情况下,在折扣无限时间MDPs中分别对策略和目标策略的价值进行估计时,即使存在实现性并观察到精确奖励和转移函数以及为问题类提供最佳先验数据分布,也派生出指数的信息论下限,并引入了一个新的“oracle+ batch algorithm”框架来证明适用于每个分布的底限。工作显示了批处理和在线强化学习之间的指数分离。
Dec, 2020
本研究提出基于批次强化学习的算法,仅使用固定的离线数据集而非在线与环境的交互来学习有效策略,并通过策略约束和价值约束对数据集不足的情况进行干扰,实现对候选策略的控制,相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。
Feb, 2021
本文提出了一种新的基于离线数据的强化学习算法,该算法拥有通用函数逼近能力、单策略集中性和统计效率,并且只需要极少的假设前提和计算稳定性。
Feb, 2023
本研究提出了一种基于 Stackelberg 的学习算法,用于批量强化学习中的政策学习问题,通过采用领导者-追随者结构的博弈论视角,该算法具有收敛性保证和对不同iable Stackelberg均衡的收敛性保证,实验证明其在批处理强化学习基准和真实世界数据集上表现良好。
Sep, 2023
探索强化学习中样本效率和适应性之间的关系,通过使用学习框架来研究问题的策略评估和最佳策略识别中,使用n个查询的样本有效算法所需的批次数K存在最低限制为Ω(log log d),并且仅有适应性并不能保证样本有效性。
Oct, 2023