序贯行为引发的不变表示在强化学习中的应用

Sep, 2023

序贯行为引发的不变表示在强化学习中的应用

Sequential Action-Induced Invariant Representation for Reinforcement Learning

Dayang Liang, Qihang Chen, Yunlong Liu

TL;DR通过序列动作导致不变表示法（SAR）方法，针对具有视觉干扰的高维观测中准确学习与任务相关的状态表示的问题，本文提出了一种能抵抗干扰的表示学习方法，通过编码器优化学习从而仅保留顺序动作控制信号后的组件，使得智能体能够学习到鲁棒的表示形式，并在实验中展示了该方法在对抗干扰任务和真实世界自动驾驶场景中的有效性。

Abstract

How to accurately learn task-relevant state representations from high-dimensional observations with visual distractions is a realistic and challenging problem in visual reinforcement learning. Recently, unsupervi

task-relevant state representations visual distractions unsupervised representation learning sequential action--induced invariant representation (sar) method distraction-resistant representation learning

发现论文，激发创造

学习不带重建的强化学习不变表示

研究如何利用表示学习加速深度强化学习，学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法，使用双模拟量度量在连续 MDP 状态之间的行为相似度，学习出能够仅编码来自观测的任务相关信息的健壮潜在表示，该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离，并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现，测试了第一人称高速公路驾驶任务，其中方法学习了对云、天气和时间的不变性，最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。

Jun, 2020

利用不变性学习基于动作的表示

使用动作双模拟编码，通过扩展单步可控性以递归的不变性约束，提出能捕捉长时序元素的多步可控性度量，通过在无奖励、均匀随机数据上进行预训练，提高了在多个环境中的样本效率，并展示了动作双模拟编码所捕捉到的信息。

Mar, 2024

通过强化学习中的内在动力特征学习任务相关的序列表示

通过建模状态转换的动力学方程、优化编码器以满足状态转换过程并区分状态空间和噪声空间，以及从序列元素频率域和多步预测的角度顺序地建模内在动力学方程关系，我们提出了一种内在动力学特征驱动的序列表示学习方法（DSR），并在视觉任务中展示了出色的表征能力。

May, 2024

任务诱导的表示学习

本研究评估表征学习方法在视觉复杂环境下决策制定中的有效性，并发现任务诱导的表征学习方法可以提高样本效率和学习效率。

Apr, 2022

高效对抗模仿学习

本研究提出了一种基于自监督表示学习的对抗性模仿学习方法，用于学习具有抗扭曲性和时间预测性的状态和动作表示，以提高样本效率，并在 MuJoCo 的 100 个专家状态 - 动作对设置中相对于现有方法表现出 39％的改进。

Mar, 2023

图像强化学习中的控制中心表示

ReBis 是一种基于图像的强化学习方法，通过整合无奖励控制信息和有奖励特定知识，利用变换器架构来隐式建模动态，并结合分块屏蔽以消除时空冗余。此外，ReBis 将基于双模拟的损失与不对称重构损失相结合，以防止稀疏奖励环境中的特征崩溃。对 Atari 游戏和 DeepMind Control Suit 等两个大型基准进行的实证研究表明，ReBis 相较于现有方法具有卓越的性能，证明了其有效性。

Oct, 2023

自监督适应深度神经网络实现机器人视觉操作

使用深度强化学习隐式地在仿真环境中学习潜在的状态表示，并通过无标签的真实机器人数据将其调整到真实环境中，以实现从像素中执行操作任务。通过序列自监督目标优化对比正向动力学损失，提出了一种更加有效的方法，成功地训练基于视觉的强化学习智能体来堆叠方块。

Oct, 2019

多任务策略训练中的简单自发行为表示

该论文研究了深度强化学习中低级感知和运动信号的表示方法，提出通过多任务策略网络输入状态和任务嵌入的方法得到有意义的运动表示空间，并在此基础上进行高级别指令的执行规划，实验结果表明该方法优于现有强基线方法，具有较强的任务适应能力。

Oct, 2022

SIRL：基于相似性的隐式表示学习

从人们定义的相似度中学习表示使机器人能够识别和隔离人们实际关心和使用的因果特征，从而更好地学习他们的喜好和目标。在模拟和用户研究中，我们证明通过这种相似度查询学习可以比自我监督和任务输入等传统的表示学习方法得到更具有一般性的表示。

Jan, 2023

ViSaRL：人眼显著性引导的视觉强化学习

用基于视觉显著性引导的强化学习（ViSaRL）来训练机器人从高维像素输入中执行复杂的控制任务，通过优化视觉表征，ViSaRL 显著提高了强化学习代理在不同任务上的成功率、样本效率和泛化能力。

Mar, 2024