PROTO: 迭代策略规范化离线到在线强化学习
本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习,提出了一个新的策略微调问题 —— 在线 RL 中,学习者在某种意义下可以接近最优策略,并在马尔科夫决策过程 (MDP) 中解决了这个问题。我们还提出了一个新的混合离线 / 在线策略微调算法,达到了更好的样本复杂度。
Jun, 2021
通过先预训练离线数据,再使用强化学习进行在线微调是一种有效的控制策略学习策略,本文提出了一种策略扩展方案以增加新的策略来参与探索,有效提高了学习效率和性能表现。
Feb, 2023
本文致力于利用仅离线轨迹数据训练一个多目标强化学习策略。我们将单目标离线强化学习问题中广泛采用的离线策略正则化方法扩展到多目标设置,以达到上述目标。然而,在离线多目标强化学习设置中,存在新的挑战,即偏好不一致演示问题。我们提出了两个解决方案:1)通过近似行为偏好来过滤偏好不一致的演示,和 2)采用具有高策略表达能力的正则化技术。此外,我们将偏好条件化的标量化更新方法整合到策略正则化的离线强化学习中,以便使用单个策略网络同时学习一组策略,从而减少训练大量不同偏好的个体策略所带来的计算成本。最后,我们引入了正则化权重适应机制,在部署过程中动态确定任意目标偏好的适当正则化权重。各种多目标数据集上的实证结果展示了我们的方法在解决离线多目标强化学习问题方面的能力。
Jan, 2024
本论文提出了一种算法,使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题,通过调整运行时的设定,可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度,并在策略降级或行为过于偏离熟悉行为时随时停止。
May, 2022
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
离线预训练与在线微调(offline-to-online 或 OtO)是与实际强化学习部署过程相匹配的范式,我们研究在线强化学习开拓问题的主要方法,其中 PTGOOD 算法在在线微调中显著提高了智能体回报,并且在少于 10k 的在线步骤中找到了最优策略。
Oct, 2023
利用 Uni-o4 方法,将离线学习和在线学习无缝结合,通过离线的策略评估和多步策略改进,实现了优越的离线初始化和稳定快速的在线微调能力,被证明在真实世界环境和模拟基准测试中表现出最先进的性能。
Nov, 2023
该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO,使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡,对元强化学习算法进行了改进,并在实验中取得了优异的表现。
Feb, 2022
该研究提出了一种半离线强化学习范式,可在保证探索能力的同时平衡训练成本,同时提供了比较不同强化学习设置的理论基础,并在优化成本、渐近误差和过度拟合误差边界方面提出了最优的强化学习设置。
Jun, 2023
本文提出了一种新的算法,采用样本内策略迭代技术,通过在最小化数据收集策略的偏差的同时优化控制策略,可以显著提高离线强化学习中行为规则方法的性能,从而实现对以前收集的数据的有效控制。最后,基于 D4RL 基准测试的实验结果表明,该算法在大多数任务上优于以前的最先进方法。
Jun, 2023