ORL-AUDITOR：离线深度强化学习数据集审核

Sep, 2023

ORL-AUDITOR：离线深度强化学习数据集审核

ORL-AUDITOR: Dataset Auditing in Offline Deep Reinforcement Learning

Linkang Du, Min Chen, Mingyang Sun, Shouling Ji, Peng Cheng...

TL;DR本文介绍了一种离线强化学习数据集审核机制ORL-AUDITOR，通过利用累积奖励作为唯一标识符，成功实现了对已发布数据集的审核，其审核准确度超过95％，误报率低于2.88％。

Abstract

data is a critical asset in AI, as high-quality datasets can significantly improve the performance of machine learning models. In safety-critical domains such as autonomous vehicles, offline deep reinforcement learning<

发现论文，激发创造

D4RL：深度数据驱动强化学习数据集

本研究为解决离线情境下强化学习（RL）的挑战，特意设计离线RL的基准测试任务，指导现实世界中数据集集合的设计与收集，并在开源代码上进行了综合评估，以便研究人员能够进一步完善现有算法及在这一新兴领域展开合作与探索。

Apr, 2020

NeoRL: 一种近似于真实环境的离线强化学习基准

本文提出了一个名为NeoRL的近实际场景离线强化学习基准，对现有的离线RL算法进行了评估，并提出了应该将策略的性能与确定性行为策略版本相比较，从而在现实中实现RL技术应用的验证和部署。

Feb, 2021

表示很重要：为序贯决策进行离线预训练

本文研究了如何将离线数据转换为强化学习模型的有效训练，通过使用无监督学习目标进行预训练的方法，本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案，并通过实验证明了其有效性。

Feb, 2021

S4RL：离线强化学习的惊人简单自监督

本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能, 并结合最先进的 Q-learning 技术, 通过平滑学习到的状态-动作空间，实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。

Mar, 2021

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线RL算法相当的性能。

Jun, 2021

不要改变算法，改变数据：离线强化学习的探索性数据

本论文提出了一种数据导向的离线强化学习方法，称为Exploratory data for Offline RL(ExORL)，通过无监督的无奖励探索生成数据，然后将其转换成特定奖励的数据，以训练出一个政策，实验证明，这种探索性的数据生成方法对于离线RL非常重要。

Jan, 2022

离线强化学习数据集中的后门隐藏

本文提出了一种新的后门攻击方法 Baffle，通过实验发现当前所有离线强化学习算法都无法免疫这种攻击，并且我们插入的后门难以被广泛采用的防御方法检测出来，因此需要更有效的保护机制。

Oct, 2022

利用离线数据进行在线强化学习

本文考虑了具有线性结构的MDPs的FineTuneRL设置，并开发了一种称为FTPedel的算法，用于结合脱机数据和在线RL以改进学习表现，结果证明了在线样本数的必要性以及在线RL和脱机数据结合的优越性，突出了在线RL和脱机RL之间的区别。

Nov, 2022

用于离线安全强化学习的数据集和基准

本文提出了面向离线安全强化学习挑战的综合基准套件，包括从环境到离线学习算法的具体实现和高质量数据集，通过对3 8类流行自动驾驶任务的数据收集与处理，最终提供了有价值的研究参考。

Jun, 2023

百人为导师，百万人引领：自适应离线强化学习与专家指导

离线强化学习中典型问题是分布转移问题，我们提出了一种名为Guided Offline RL（GORL）的新方法，使用引导网络和少数专家演示样本，自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明，GORL可在大多数离线强化学习算法上轻松安装，并实现统计上显著的性能提升。

Sep, 2023