离线不平衡数据集的强化学习

Jul, 2023

Offline Reinforcement Learning with Imbalanced Datasets

Li Jiang, Sijie Chen, Jielin Qiu, Haoran Xu, Wai Kin Chan...

TL;DR通过在分布式的约束条件如 onservative Q-learning 基础上引入信息检索过程，有效地减轻了失衡数据集所带来的挑战，我们提出了一种新颖的离线强化学习方法，并在不同程度失衡的数据集上的几个任务中评估了其优劣。

Abstract

The prevalent use of benchmarks in current offline reinforcement learning (RL) research has led to a neglect of the imbalance of real-world dataset distributions in the development of models. The real-world offline RL dataset is often imbalanced over the state space due to the challeng

offline reinforcement learning imbalanced datasets distributional constraints conservative q-learning retrieval process

发现论文，激发创造

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023

优化和基准测试离线强化学习算法

本文研究离线强化学习，通过对 20 个实现选择进行实证研究来选择最佳实现方案，进而实现在数据集上的新最优状态，并提供了针对离线 RL 的 8 个普遍算法的性能基准进一步揭示数据分布对学习范式成功的影响，证明了之前某些结论受数据集的影响歪曲。

Jun, 2023

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019

基于混合数据集的无线网络优化的离线强化学习

本研究采用离线强化学习算法解决无线电资源管理问题，通过评估使用行为策略收集的异构数据集来提出一种新的离线强化学习解决方案，表明在适当混合数据集的情况下，离线强化学习能够产生接近最优的强化学习策略。

Nov, 2023

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

面向多样化数据损坏的鲁棒离线强化学习

离线强化学习中，数据损坏对性能的影响是一个重要问题，本研究通过实证和理论分析发现，隐式 Q 学习 (IQL) 表现出很强的抗数据损坏能力，其监督策略学习机制是关键因素之一。为解决 Q 函数在动力学方面受到的影响，研究引入鲁棒统计学和 Huber 损失函数来处理重尾数据，并利用分位数估计器平衡受损数据和学习稳定性，提出了一个更加鲁棒的离线强化学习方法，命名为鲁棒 IQL (RIQL)。大量实验表明，在各种数据损坏情况下，RIQL 表现出极高的鲁棒性能。

Oct, 2023

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

平衡重现和悲观 Q 集合的离线到在线强化学习

本文提出了一种平衡重放机制和多 Q 函数的方法来解决深度离线强化学习中的状态 - 动作分布移位问题，以提高机器人代理在不同运动和操作任务中的样本效率和最终性能。

Jul, 2021

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021