使用好奇心对比正向动力学模型实现高效强化学习表示学习

Mar, 2021

使用好奇心对比正向动力学模型实现高效强化学习表示学习

Sample-efficient Reinforcement Learning Representation Learning with Curiosity Contrastive Forward Dynamics Model

Thanh Nguyen, Tung M. Luu, Thang Vu, Chang D. Yoo

TL;DR本文介绍了使用 “好奇心对比前向动态模型（CCFDM）” 在基于原始像素的强化学习任务中实现更高的样本效率，并通过提供内在奖励进一步鼓励智能体进行探索，通过更好的探索策略和可用于对比学习的数据增强改善样本效率和泛化性能。在 DeepMind 控制套装基准测试中，利用 CCFDM 作为基础的现有无模型 RL 方法如 Soft Actor-Critic 表现优于以前的基于像素的强化学习方法。

Abstract

Developing an agent in reinforcement learning (RL) that is capable of performing complex control tasks directly from high-dimensional observation such as raw pixels is yet a challenge as efforts are made towards improving →

reinforcement learning curiosity contrastive forward dynamics model sample efficiency deep convolutional neural network exploration

发现论文，激发创造

CCLF：一种对比 - 好奇驱动的学习框架，用于高效强化学习

在本文中，我们提出了一个模型无关的对比学习框架（CCLF），通过对经验回放进行对比学习和自我学习来利用重要的样本，更高效地学习表示，从而大大减少数据增强的样本数量。我们的方法在多个基础强化学习算法上以及 DeepMind Control Suite、Atari 和 MiniGrid 基准测试上表现出了超越其他最先进方法的样本效率和学习性能。

May, 2022

通过密度估计进行好奇心驱动的经验优先排序

提出了一种好奇心驱动的优先级策略（CDP）框架，通过模仿人类学习流程，着力于相对罕见的事件，使得机器人在强化学习中更加高效地学习并提高性能。

Feb, 2019

使用深度动态模型从图像像素中高效学习反馈策略

本文提出了一种数据有效、基于模型的强化学习算法，通过使用像素信息直接学习闭环控制策略，实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点，并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。

Oct, 2015

从扩散反馈中强化学习：图像搜索的 Q*

大型视觉 - 语言模型通过非微调或数据增强实现个性化能力增强。本文提出了两种使用模型无关学习进行图像生成的模型，通过将语义先验与生成能力进行对齐。其中一种方法是 RLDF（Reinforcement Learning from Diffusion Feedback），通过保持先前的奖励函数进行视觉模仿。另一种方法是噪声扩散梯度优化方法。这些方法的核心是我们提出的连续语义引导的特殊 CFG 编码。RLDF 仅使用单张输入图像且无文本输入，在不同领域包括零售、体育和农业生成了具有类一致性和强大视觉多样性的高质量图像。项目网站可在此 https URL 找到。

Nov, 2023

将对比学习与动态模型集成，用于从图像中进行强化学习

本文提出了一种自监督表征学习方法，它将对比学习与动态模型相结合，以协同地实现三个目标，即通过最大化信息 NCE 界来诱导线性预测嵌入，通过显式学习非线性转换模型进一步提高学习嵌入的马尔可夫性以及最大化下一嵌入的互信息，其基于当前动作和当前状态的两个独立增强的嵌入预测，实验表明，与基于对比学习或重建的现有方法相比，我们的方法在样本效率和泛化性能上都取得了更好的结果。

Mar, 2022

SAFE-RL：针对深度强化学习策略的显著性感知因果解释器

深度强化学习在复杂控制任务中显示出了极大的潜力，然而学习策略的不可解释性限制了其在安全关键应用（如自动驾驶系统）中的应用。为了解决这些问题，本文提出了一种使用显著性地图识别代理过去观测状态序列中影响力最大的输入像素，并将该地图馈送到深度生成模型中的方法，从而实现在显著区域进行约束修改的可信 Counterfactual 示例的生成。通过多个领域的实验结果表明，该方法能够在广泛的环境和深度强化学习代理中生成更加信息丰富和可信的 Counterfactual 示例。

Apr, 2024

基于递归卷积神经网络的强化学习

使用递归卷积神经网络的值迭代，以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构，通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数，这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法，并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。

Jan, 2017

逆向前馈课程学习在强化学习中的极端样本和演示效率优化

采用逆序课程和正序课程相结合的方法，RFCL，在学习从示范中获得显著改进，并且能够解决过去无法解决的需要高精度和控制的任务。

May, 2024

CUDC: 一种基于好奇心驱动的自适应时间距离的离线强化学习的数据收集方法

该论文提出了一种基于好奇心驱动的无监督数据收集方法，通过自适应的时间距离扩展特征空间，从而提高多任务离线强化学习的效率和能力。该方法通过估计 k 步未来状态从当前状态可达的概率，并调整动力学模型预测的未来步数，实现自适应可达性机制，从而实现特征表示的多样化，使智能体能够通过好奇心导航自己收集更高质量的数据。经实验证明，该方法在 DeepMind 控制套件的各种下游离线强化学习任务中超越了现有的无监督方法，在效率和学习性能上表现出色。

Dec, 2023

基于流量的内在好奇心模块

本文提出了一种基于深度强化学习框架的预测为主的新颖性估计策略，并介绍了一种基于流的内部好奇心模块 (FICM)，以利用光流估计中的预测误差作为探索奖励来评估环境中的观测新颖性。我们比较了多个基准环境上的现有方法，并证明了 FICM 对于具有移动物体的任务或环境非常有利。

May, 2019