离线强化学习多任务数据共享的悲观值迭代

Apr, 2024

离线强化学习多任务数据共享的悲观值迭代

Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning

Chenjia Bai, Lingxiao Wang, Jianye Hao, Zhuoran Yang, Bin Zhao...

TL;DR离线强化学习（RL）在从固定数据集中学习特定任务策略方面显示出有希望的结果。然而，成功的离线 RL 往往严重依赖于给定数据集的覆盖范围和质量。在特定任务的数据集有限的情况下，一种自然的方法是通过来自其他任务的数据集改进离线 RL，即进行多任务数据共享（MTDS）。然而，直接共享来自其他任务的数据集会加剧离线 RL 中的分布偏移。在本文中，我们提出了一种基于不确定性的 MTDS 方法，该方法在不进行数据选择的情况下共享整个数据集。根据基于集合的不确定性量化，我们在共享的离线数据集上执行悲观值迭代，为单任务和多任务离线 RL 提供了统一框架。我们进一步提供了理论分析，表明我们的方法的最优性差距仅与共享数据集的预期数据覆盖相关，从而解决了数据共享中的分布偏移问题。在实证方面，我们发布了一个 MTDS 基准，并从三个具有挑战性的领域收集了数据集。实验结果显示，我们的算法在具有挑战性的 MTDS 问题中优于先前的最先进方法。

Abstract

offline reinforcement learning (RL) has shown promising results in learning a task-specific policy from a fixed dataset. However, successful offline RL often relies heavily on the coverage and quality of the given dataset. In scenarios where the dataset for a specific task is limited,

offline reinforcement learning multi-task data sharing ensemble-based uncertainty quantification data coverage distribution shift

发现论文，激发创造

面向多任务离线强化学习的保守数据共享

介绍了多任务离线强化学习中数据共享中所面对的分布移位与性能问题，并提出了一种保守数据共享的方法，应用于单任务离线强化学习，取得了在多项挑战性多任务机器人控制问题中最佳或相当的性能。

Sep, 2021

具有经验共享的分布式多任务强化学习的扩展

本文针对分布式多任务强化学习进行研究，提出了一种名为 DistMT-LSVI 的算法，可以在具有不同任务的环境中学习到针对所有任务的 ε- 最优策略，并通过理论和实验证实了该算法能够显著提高非分布式设置的样本复杂性。

Jul, 2023

离线多任务转移强化学习与表示惩罚

我们研究了离线强化学习中的表示转移问题，提出了一种算法来计算学习表示的点态不确定性度量，并通过扩展数据的数据依赖上界证明了针对目标任务的学习策略的次优性。我们的算法利用源任务的集体探索来解决现有离线算法在一些点上覆盖不足的问题，并在需要完全覆盖的富观测马尔可夫决策过程上进行了实证评估，展示了惩罚和量化学习表示中的不确定性的益处。

Feb, 2024

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019

基于扰动数据源的可证明高效离线强化学习

本文研究了使用多个数据集进行离线强化学习的问题，提出了一种考虑样本和数据源不确定性的算法，并在离线马尔科夫博弈和离线鲁棒强化学习方面进行了推广。

Jun, 2023

双重悲观主义在分布式鲁棒离线强化学习中证明有效：通用算法与鲁棒部分覆盖

本研究提出了一个新的算法框架用于分布鲁棒离线强化学习，该算法结合了一种灵活的模型估计子程序和双倍悲观的策略优化步骤，其关键在于通过特定的模型估计子程序，提高离线数据集对鲁棒策略的覆盖度，从而有效克服分布偏移问题，并在多种函数逼近近似方法中得到了良好地应用。

May, 2023

离线强化学习中无监督数据共享的可证明好处

该研究探究了如何在半监督的情况下，利用无奖励数据进行离线强化学习，并通过提出的 Provable Data Sharing 算法，取得了显著的改善，从而成功地优化了自监督强化学习模型，提高了模型性能。

Feb, 2023

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021