CUDC: 一种基于好奇心驱动的自适应时间距离的离线强化学习的数据收集方法

AAAIDec, 2023

CUDC: 一种基于好奇心驱动的自适应时间距离的离线强化学习的数据收集方法

CUDC: A Curiosity-Driven Unsupervised Data Collection Method with Adaptive Temporal Distances for Offline Reinforcement Learning

PDF

Chenyu Sun, Hangwei Qian, Chunyan Miao

TL;DR该论文提出了一种基于好奇心驱动的无监督数据收集方法，通过自适应的时间距离扩展特征空间，从而提高多任务离线强化学习的效率和能力。该方法通过估计 k 步未来状态从当前状态可达的概率，并调整动力学模型预测的未来步数，实现自适应可达性机制，从而实现特征表示的多样化，使智能体能够通过好奇心导航自己收集更高质量的数据。经实验证明，该方法在 DeepMind 控制套件的各种下游离线强化学习任务中超越了现有的无监督方法，在效率和学习性能上表现出色。

Abstract

offline reinforcement learning (RL) aims to learn an effective policy from a pre-collected dataset. Most existing works are to develop sophisticated learning algorithms, with less emphasis on improving the data collecti

offline reinforcement learning data collection multi-task learning adaptive reachability mechanism unsupervised methods

发现论文，激发创造

通过密度估计进行好奇心驱动的经验优先排序

提出了一种好奇心驱动的优先级策略（CDP）框架，通过模仿人类学习流程，着力于相对罕见的事件，使得机器人在强化学习中更加高效地学习并提高性能。

Feb, 2019

CLUTR: 通过无监督任务表示学习进行课程学习

介绍了 CLUTR：一种新型的无监督课程学习算法，通过将任务表示和课程学习分解成两个阶段的优化，成功地克服了任务分布不稳定性的问题，提高了稳定性，并在 CarRacing 和 Navigation 等环境中实现了具有挑战性的零 - shot 推广。

Oct, 2022

使用好奇心对比正向动力学模型实现高效强化学习表示学习

本文介绍了使用 “好奇心对比前向动态模型（CCFDM）” 在基于原始像素的强化学习任务中实现更高的样本效率，并通过提供内在奖励进一步鼓励智能体进行探索，通过更好的探索策略和可用于对比学习的数据增强改善样本效率和泛化性能。在 DeepMind 控制套装基准测试中，利用 CCFDM 作为基础的现有无模型 RL 方法如 Soft Actor-Critic 表现优于以前的基于像素的强化学习方法。

Mar, 2021

通过不确定性和时间距离感知的课程目标生成的以结果为导向的强化学习

本文提出了一种针对增强学习的不确定性和时间距离感知课程目标生成方法，通过解决二分图匹配问题，为课程提供精确的指导，从而更好地解决了先前课程 RL 方法中存在的问题，并在数量和质量上显著优于这些方法。

Jan, 2023

UDUC: 基于不确定性驱动的学习鲁棒控制方法

通过引入基于不确定性驱动的鲁棒控制损失 (UDUC) 作为概率集合模型的替代目标，并受对比学习的启发，我们分析了 UDUC 损失的鲁棒性，并评估其在具有显著环境不匹配的挑战性实际强化学习基准 (RWRL) 上的性能。

May, 2024

城市集中的多目标离线强化学习与对比数据共享

MODA 是一个多任务线下强化学习方法，通过对比数据共享来解决线下强化学习中的数据稀缺性和异质性问题，并且利用集成动力学模型和生成对抗网络构建鲁棒的马尔可夫决策过程，显著提升了城市决策过程。

Jun, 2024

深度 CUPRL: 用于无人机无地图导航的深度图像对比无监督优先表示强化学习

本研究提出了一种新的方法，使用深度图估计来教授强化学习代理在无人机的无地图导航中执行任务，并结合强化学习和对比学习以应对物理状态 RL 策略效率低下的问题。结果分析表明，我们的 Depth-CUPRL 方法在无地图导航方面的决策制定方面非常有效，并且优于基于像素的方法。

Jun, 2022

聚变多样性：基于结果导向的课程强化学习与分歧的超出分布

提出了一种新的课程强化学习方法 D2C，该方法通过对目标条件分类器进行多样化，确保分类器对于来自分布之外的状态产生分歧，从而探索未知区域并定义一种任意目标条件内在奖励信号，从而产生适应性良好的中间目标序列，以自动探索并征服未知区域。实验结果表明，D2C 在定量和定性方面均优于之前的课程强化学习方法。

Oct, 2023

在模拟环境中学习如何学习

本研究使用深度强化学习技术训练一种好奇心代理以促进物体检测模型在线学习。我们还提出了一种奖励函数，以权衡代理的两个目标：尽快完成训练或尽可能少地进行人工介入，并考虑了 drone 平台的部分物理特性。

Feb, 2019

无监督环境设计中的随机不确定性建模

SAMLR 是一种适应性课程学习方法，可以在避免课程诱导的协变量漂移的情况下优化环境序列，保证在真实环境下最大化效用函数，实现强化学习中的最小后悔策略。

Jul, 2022