离线强化学习中有限数据处理的领域知识整合
该研究提出了一种解决离线强化学习中的 OOD 问题的新方法,通过引入离线强化学习师生框架和策略相似度度量,使得学生策略不仅可以从离线数据集中获取见解,还可以从教师策略传递的知识中获得额外的信息,从而有效解决 OOD 问题。
Jun, 2024
本文提出了交叉领域离线强化学习方法 BOSA,通过利用来自不同转移动态(环境)的源领域数据,解决了离线 RL 中存在的数据效率不高的问题,并通过实验证明其在离线数据效率方面的有效性。
Jun, 2023
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。
Feb, 2023
该研究提出了一种基于模型的离线 RL 算法,该算法可扩展应用于高维视觉观测空间,通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战,并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。
Dec, 2020
本文提出了自适应行为正则化(ABR)的方法改善已有机器学习数据集中存在的行为采样偏差,从而提高了离线强化学习的效率和稳定性,并在 D4RL 数据集上实现了最新算法中更好或相当的性能。
Nov, 2022
本文介绍了一种多演示者离线强化学习算法,该算法能够自然地解决不同演示者产生不同数据分布的问题,并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法,结果表明,该方法能够提高领域泛化性能,可以改善策略学习过程的稳定性,并可以潜在地实现探索增强。
Nov, 2022