优化和基准测试离线强化学习算法

Jun, 2023

优化和基准测试离线强化学习算法

Improving and Benchmarking Offline Reinforcement Learning Algorithms

Bingyi Kang, Xiao Ma, Yirui Wang, Yang Yue, Shuicheng Yan

TL;DR本文研究离线强化学习，通过对 20 个实现选择进行实证研究来选择最佳实现方案，进而实现在数据集上的新最优状态，并提供了针对离线 RL 的 8 个普遍算法的性能基准进一步揭示数据分布对学习范式成功的影响，证明了之前某些结论受数据集的影响歪曲。

Abstract

Recently, offline reinforcement learning (RL) has achieved remarkable progress with the emergence of various algorithms and datasets. Howe

offline reinforcement learning implementation choices datasets algorithms state-of-the-art

发现论文，激发创造

离线不平衡数据集的强化学习

通过在分布式的约束条件如 onservative Q-learning 基础上引入信息检索过程，有效地减轻了失衡数据集所带来的挑战，我们提出了一种新颖的离线强化学习方法，并在不同程度失衡的数据集上的几个任务中评估了其优劣。

Jul, 2023

基于混合数据集的无线网络优化的离线强化学习

本研究采用离线强化学习算法解决无线电资源管理问题，通过评估使用行为策略收集的异构数据集来提出一种新的离线强化学习解决方案，表明在适当混合数据集的情况下，离线强化学习能够产生接近最优的强化学习策略。

Nov, 2023

批评正则化回归

本文提出了一种基于评价器正则化回归算法（CRR）的新型离线强化学习算法，它能够在高维状态和动作空间下解决固定数据集的离线学习问题，在广泛的基准任务上表现出优越性能。

Jun, 2020

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线 RL 的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019

D4RL：深度数据驱动强化学习数据集

本研究为解决离线情境下强化学习（RL）的挑战，特意设计离线 RL 的基准测试任务，指导现实世界中数据集集合的设计与收集，并在开源代码上进行了综合评估，以便研究人员能够进一步完善现有算法及在这一新兴领域展开合作与探索。

Apr, 2020

用于离线安全强化学习的数据集和基准

本文提出了面向离线安全强化学习挑战的综合基准套件，包括从环境到离线学习算法的具体实现和高质量数据集，通过对 3 8 类流行自动驾驶任务的数据收集与处理，最终提供了有价值的研究参考。

Jun, 2023

重新审视离线强化学习的极简主义方法

通过设计实验，研究离线强化学习算法中较不重要但仍影响效果的设计决策，并提出了一种集成这些设计元素的算法 ReBRAC，它在 51 个数据集上得到了最先进的表现。通过大规模实验，我们进一步证明了这些设计决策的功效。

May, 2023

面向多样化数据损坏的鲁棒离线强化学习

离线强化学习中，数据损坏对性能的影响是一个重要问题，本研究通过实证和理论分析发现，隐式 Q 学习 (IQL) 表现出很强的抗数据损坏能力，其监督策略学习机制是关键因素之一。为解决 Q 函数在动力学方面受到的影响，研究引入鲁棒统计学和 Huber 损失函数来处理重尾数据，并利用分位数估计器平衡受损数据和学习稳定性，提出了一个更加鲁棒的离线强化学习方法，命名为鲁棒 IQL (RIQL)。大量实验表明，在各种数据损坏情况下，RIQL 表现出极高的鲁棒性能。

Oct, 2023

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023