离线强化学习中的生存本能
本文提出了一种悲观的价值迭代算法(PEVI),它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题,并在泛化情况下对其次优性建立了数据相关的上限。
Dec, 2020
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。
Mar, 2021
通过维护动态神经网络的信念分布,以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计,可以最大限度地利用静态数据集,实现基于模型的离线强化学习。
Oct, 2022
本文考虑了具有线性结构的MDPs的FineTuneRL设置,并开发了一种称为FTPedel的算法,用于结合脱机数据和在线RL以改进学习表现,结果证明了在线样本数的必要性以及在线RL和脱机数据结合的优越性,突出了在线RL和脱机RL之间的区别。
Nov, 2022
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。
Feb, 2023
本研究提出了一个新的算法框架用于分布鲁棒离线强化学习,该算法结合了一种灵活的模型估计子程序和双倍悲观的策略优化步骤,其关键在于通过特定的模型估计子程序,提高离线数据集对鲁棒策略的覆盖度,从而有效克服分布偏移问题,并在多种函数逼近近似方法中得到了良好地应用。
May, 2023
这篇论文旨在增强离线强化学习在实际应用场景中具有重尾奖励的鲁棒性。我们提出了两个算法框架ROAM和ROOM,分别用于鲁棒的离线策略评估和离线策略优化。这些框架的核心是将均值中位数方法与离线强化学习相结合,从而能够直接估计值函数估计器的不确定性。理论结果和广泛的实验证明,我们的两个框架在具有重尾奖励分布的日志数据集上优于现有方法。
Oct, 2023
混合强化学习利用在线和离线数据,研究其可证明的好处仍然很少,通过将状态-动作空间分区和在线算法温启动离线数据,我们证明了混合强化学习算法的遗憾可以通过最佳分区来表征,从而在探索方面取得可证明的增益。
Mar, 2024
提出了一种不确定性感知的离线强化学习方法,同时解决了认知不确定性和环境随机性,能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估,证明了其卓越的性能。
Mar, 2024
离线强化学习(RL)在探索可能成本高昂或不安全的真实世界应用中至关重要。然而,离线学习的策略通常是次优的,需要进一步进行在线微调。本文解决了离线到在线微调的基本困境:如果智能体保持悲观态度,可能无法学到更好的策略,而如果直接变得乐观,性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略,而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降,同时保证找到最优策略。基于我们的理论发现,我们提出了一种优于现有方法的新算法,在各种基准测试中展示了我们方法的有效性。总体而言,所提出的方法为离线到在线RL提供了一种新的视角,有潜力使离线数据的学习更加有效。
May, 2024