离线强化学习的乐观视角
本文提出了一种基于不确定性的离线强化学习方法,考虑 Q 值预测的置信度,不需要对数据分布进行估计或抽样,并提出了一种集合多样化的演员 - 批评家算法,该算法在大多数 D4RL 基准测试中实现了最先进的性能。
Oct, 2021
此研究聚焦于离线强化学习,重点是离线学习方法的数据集属性和离线方法的成功相关性,实验证明离线 RL 的多样性和高回报的例子对于成功至关重要,并表明行为克隆仍然是竞争对手。
Nov, 2020
通过在分布式的约束条件如 onservative Q-learning 基础上引入信息检索过程,有效地减轻了失衡数据集所带来的挑战,我们提出了一种新颖的离线强化学习方法,并在不同程度失衡的数据集上的几个任务中评估了其优劣。
Jul, 2023
本文提出了一种平衡重放机制和多 Q 函数的方法来解决深度离线强化学习中的状态 - 动作分布移位问题,以提高机器人代理在不同运动和操作任务中的样本效率和最终性能。
Jul, 2021
提出了一种名为 “Ensemble-based Offline-to-Online(E2O)RL” 的新框架,通过增加 Q 网络的数量,能够无损地桥接离线预训练和在线微调,同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制,加快了在线性能增强,显著优于现有的离线到在线 RL 方法,能够在一系列运动和导航任务的在线微调过程中极大地提高现有离线 RL 方法的训练稳定性,学习效率和最终性能。
Jun, 2023
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文提出提高离线强化学习性能的方法:使用 ResNets、基于交叉熵的分布备份、特征标准化,取得了良好的性能和容量扩展性。同时,作者展示了通过多样化数据集的离线 Q 学习可以学习到有用的表示,并实现快速传输到新游戏和在线学习的目标。
Nov, 2022
本研究提出了基于模型的离线强化学习算法 MOReL,具有模块化设计,可以用于模型生成、不确定性估计、规划等领域,实验结果表明,MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。
May, 2020
离线策略学习旨在利用现有的轨迹数据集来学习决策策略,而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块,从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明,在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。
Oct, 2023