iQRL - 隐式量化表示用于高效强化学习

Jun, 2024

iQRL - 隐式量化表示用于高效强化学习

iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning

Aidan Scannell, Kalle Kujanpää, Yi Zhao, Mohammadreza Nakhaei, Arno Solin...

TL;DR使用自监督的潜在状态一致性损失提出了一种有效的表示学习方法，通过量化潜在表示以保留表示的秩，命名为 iQRL：隐式量化强化学习，可与任何无模型强化学习算法兼容，并在 DeepMind 控制套件的连续控制基准中表现优异，超过其他最近提出的表示学习方法。

Abstract

Learning representations for reinforcement learning (RL) has shown much promise for continuous control. We propose an efficient representation le

reinforcement learning representation learning latent-state consistency loss quantization continuous control

发现论文，激发创造

为数据高效强化学习学习具有时间一致性的表示

本研究提出了一种名为 KSL 的新的表示学习方法，通过自我监督辅助任务，强制执行表示的时间一致性，其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL 学习到的状态编码器生成低维表示，可以使 RL 任务的优化更具样本效率，并在 PlaNet 基准测试套件中产生最先进的数据效率和渐近性能结果。

Oct, 2021

使用矢量量化编码的深度强化学习

该研究提出了一种名为向量量化的强化学习插件框架，基于向量量化编码的辅助分类任务将状态特征聚类，以提高深度强化学习方法的可解释性，并引入了两种正则化方法以帮助增加聚类之间的区分度和避免 VQ 训练所涉及的风险，该方法在模拟中证明了其提高了可解释性，并研究了其对深度 RL 鲁棒性和泛化能力的影响。

Nov, 2022

隐式分位数网络用于分布式强化学习

本文介绍了一种基于分布式强化学习的方法，通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法，并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能，并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。

Jun, 2018

机器人技能学习的动作量化离线强化学习

我们提出了一种自适应的行动量化方案，通过使用 VQ-VAE 学习状态条件的行动量化，避免了行动空间的指数爆炸问题，并通过离线强化学习方法在基准测试中改进了性能，同时在 Robomimic 环境中的复杂机器人操作任务中，离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。

Oct, 2023

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

SOLAR: 基于深度结构化表示的模型驱动强化学习

本文提出了一种适合于迭代模型增强策略，即使在具有复杂图像观测的情况下，学习简单动态和成本模型的表示方法，使得基于线性二次调节器（LQR）的基于模型的 RL 方法可用于具有图像观测的系统，并在包括通过图像直接操作真实世界机器人臂的操作中评估该方法，发现我们的方法相比其他基于模型的 RL 方法产生更好的最终性能，同时比无模型 RL 更高效。

Aug, 2018

CQM：基于量化世界模型的课程强化学习

我们提出了一种新的课程方法，通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战，并改善课程的可伸缩性。我们通过向量量化变分自动编码器 (VQ-VAE) 将连续观测离散化，并通过图形恢复离散观测之间的时序关系。同时，我们提出了考虑不确定性和时间距离的课程目标，这些目标能够收敛到自动组合的目标空间的最终目标。我们证明了该方法仅仅通过原始目标示例就能在未知环境中实现高效探索，且在各种目标达成任务中，甚至使用自我中心视觉输入时，该方法在数据效率和性能上都优于最先进的课程增强学习方法。

Oct, 2023

量子强化学习

本文提出了一种新颖的量子强化学习算法，通过将量子理论和强化学习相结合，引入了价值更新算法框架，通过概率幅度并行更新以达到在探索和利用之间取得良好平衡，并加速学习。经实验验证，该方法在一些复杂问题中表现出优越性和实用性，是量子计算在人工智能应用方面的有效探索。

Oct, 2008

递归 Q 学习的近似信息状态收敛分析

该论文研究了强化学习算法中的一种非马尔可夫过程，提出了一种基于近似信息状态 (AIS) 的改进方法，展示了其比基线更好的表现和与 AIS 表示相关的性能变化。

Jun, 2023

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022