面向多样化数据损坏的鲁棒离线强化学习

Oct, 2023

面向多样化数据损坏的鲁棒离线强化学习

Towards Robust Offline Reinforcement Learning under Diverse Data Corruption

Rui Yang, Han Zhong, Jiawei Xu, Amy Zhang, Chongjie Zhang...

TL;DR离线强化学习中，数据损坏对性能的影响是一个重要问题，本研究通过实证和理论分析发现，隐式 Q 学习 (IQL) 表现出很强的抗数据损坏能力，其监督策略学习机制是关键因素之一。为解决 Q 函数在动力学方面受到的影响，研究引入鲁棒统计学和 Huber 损失函数来处理重尾数据，并利用分位数估计器平衡受损数据和学习稳定性，提出了一个更加鲁棒的离线强化学习方法，命名为鲁棒 IQL (RIQL)。大量实验表明，在各种数据损坏情况下，RIQL 表现出极高的鲁棒性能。

Abstract

offline reinforcement learning (RL) presents a promising approach for learning reinforced policies from offline datasets without the need for costly or unsafe interactions with the environment. However, datasets collected by humans in real-world environments are often noisy and may eve

offline reinforcement learning data corruption implicit q-learning supervised policy learning robust iql

发现论文，激发创造

腐败鲁棒离线强化学习与人类反馈

我们设计了一种新颖的对抗性鲁棒性离线强化学习方法，以处理具有不同数据生成分布覆盖假设的数据污染情况，通过学习奖励模型和置信区间，然后在置信区间内学习一个悲观的最优策略，实现了离线强化学习中具有可证明的数据污染鲁棒性的 RLHF 方法。

Feb, 2024

使用离线数据的强化学习算法

该论文提出一种名为 RFQI 的稳健强化学习算法，使用离线数据集来优化策略，在标准条件下该算法能够学习到近乎最优的稳健策略，并且在标准基准测试问题上展现出卓越的性能表现。

Aug, 2022

离线不平衡数据集的强化学习

通过在分布式的约束条件如 onservative Q-learning 基础上引入信息检索过程，有效地减轻了失衡数据集所带来的挑战，我们提出了一种新颖的离线强化学习方法，并在不同程度失衡的数据集上的几个任务中评估了其优劣。

Jul, 2023

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

等变离线强化学习

通过使用有限数量的演示，本研究探讨了在离线强化学习中使用 $SO (2)$- 等变神经网络的可能性，并通过实验证明了等变性如何提高低数据情况下的离线学习算法。

Jun, 2024

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

抗腐败离线强化学习

本文研究线性 MDP 环境下基于离线数据集的对抗鲁棒强化学习问题，提出并分析了罕见奖励污染情况下的最优区间，展示了由最优区间出发，直接针对初始化状态的改进算法；同时，我们指出该离线场景下普适的主动鲁棒化机制并不存在（例如动态调参等），并建议未来应着重于该问题的研究。

Jun, 2021

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

具有通用函数近似的反腐败离线强化学习

我们研究了离线强化学习中的腐败鲁棒性问题，提出了一种新的不确定性权重迭代方法来计算批处理样本，并设计了一种对腐败具有鲁棒性的离线强化学习算法。

Oct, 2023

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019