ORL-AUDITOR:离线深度强化学习数据集审核
本研究为解决离线情境下强化学习(RL)的挑战,特意设计离线RL的基准测试任务,指导现实世界中数据集集合的设计与收集,并在开源代码上进行了综合评估,以便研究人员能够进一步完善现有算法及在这一新兴领域展开合作与探索。
Apr, 2020
本文提出了一个名为NeoRL的近实际场景离线强化学习基准,对现有的离线RL算法进行了评估,并提出了应该将策略的性能与确定性行为策略版本相比较,从而在现实中实现RL技术应用的验证和部署。
Feb, 2021
本文研究了如何将离线数据转换为强化学习模型的有效训练,通过使用无监督学习目标进行预训练的方法,本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案,并通过实验证明了其有效性。
Feb, 2021
本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能, 并结合最先进的 Q-learning 技术, 通过平滑学习到的状态-动作空间,实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。
Mar, 2021
本论文提出了一种数据导向的离线强化学习方法,称为Exploratory data for Offline RL(ExORL),通过无监督的无奖励探索生成数据,然后将其转换成特定奖励的数据,以训练出一个政策,实验证明,这种探索性的数据生成方法对于离线RL非常重要。
Jan, 2022
本文提出了一种新的后门攻击方法 Baffle,通过实验发现当前所有离线强化学习算法都无法免疫这种攻击,并且我们插入的后门难以被广泛采用的防御方法检测出来,因此需要更有效的保护机制。
Oct, 2022
本文考虑了具有线性结构的MDPs的FineTuneRL设置,并开发了一种称为FTPedel的算法,用于结合脱机数据和在线RL以改进学习表现,结果证明了在线样本数的必要性以及在线RL和脱机数据结合的优越性,突出了在线RL和脱机RL之间的区别。
Nov, 2022
本文提出了面向离线安全强化学习挑战的综合基准套件,包括从环境到离线学习算法的具体实现和高质量数据集,通过对3 8类流行自动驾驶任务的数据收集与处理,最终提供了有价值的研究参考。
Jun, 2023
离线强化学习中典型问题是分布转移问题,我们提出了一种名为Guided Offline RL(GORL)的新方法,使用引导网络和少数专家演示样本,自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明,GORL可在大多数离线强化学习算法上轻松安装,并实现统计上显著的性能提升。
Sep, 2023