离线强化学习策略应该被训练成具有自适应性
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
离线强化学习(RL)在探索可能成本高昂或不安全的真实世界应用中至关重要。然而,离线学习的策略通常是次优的,需要进一步进行在线微调。本文解决了离线到在线微调的基本困境:如果智能体保持悲观态度,可能无法学到更好的策略,而如果直接变得乐观,性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略,而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降,同时保证找到最优策略。基于我们的理论发现,我们提出了一种优于现有方法的新算法,在各种基准测试中展示了我们方法的有效性。总体而言,所提出的方法为离线到在线 RL 提供了一种新的视角,有潜力使离线数据的学习更加有效。
May, 2024
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文主要针对离线强化学习中的价值函数方法,提出了一种名为 POPO 的悲观离线策略优化算法,它学习了一种悲观的价值函数以获取强策略,相比于多个最先进的算法,在高维状态和动作空间中表现出色。
Dec, 2020
本文提出了一种基于模型的离线策略优化算法 (MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
May, 2020
本文通过对线下单调策略改进的分析得出有趣结论,即一些在线策略算法天生就能解决离线 RL 问题,而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的,无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。
Feb, 2023
在在线 RL 或微调中,使用乐观探索策略来探索新的状态和行为是可取的,我们提出了一种 Offline-to-Online-to-Offline (OOO) 框架,通过在在线微调结束时进行离线训练来恢复更好的策略。
Oct, 2023
本论文提出了一种算法,使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题,通过调整运行时的设定,可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度,并在策略降级或行为过于偏离熟悉行为时随时停止。
May, 2022
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023