细粒度的因果动力学学习与量化技术在增强学习中的鲁棒性改进

ICMLJun, 2024

细粒度的因果动力学学习与量化技术在增强学习中的鲁棒性改进

Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning

Inwoo Hwang, Yunhyeok Kwak, Suhyung Choi, Byoung-Tak Zhang, Sanghack Lee

TL;DR我们提出了一种新的动力学模型，通过推断细粒度的因果结构并用于预测，以改善强化学习中的鲁棒性。该模型通过将状态 - 动作空间离散化为子群，共同学习动力学模型和离散潜变量的关键点子，从而识别显示稀疏依赖性的有意义的上下文，并在训练中为每个子群学习因果结构。实验结果证明了我们的方法在未见状态和局部干扰相关性的下游任务中显示出的鲁棒性，以及与先前方法相比，基于子群和离散化方法在发现细粒度因果关系方面的有效性。

Abstract

causal dynamics learning has recently emerged as a promising approach to enhancing robustness in reinforcement learning (RL). Typically, t

causal dynamics learning robustness reinforcement learning dynamics model causal relationships

发现论文，激发创造

基于上下文感知的模型动态学习在强化学习中的泛化应用

该论文提出了一种用于强化学习中学习动态全局模型的方法，通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的，并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力，超过了现有的强化学习方案。

May, 2020

CQM：基于量化世界模型的课程强化学习

我们提出了一种新的课程方法，通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战，并改善课程的可伸缩性。我们通过向量量化变分自动编码器 (VQ-VAE) 将连续观测离散化，并通过图形恢复离散观测之间的时序关系。同时，我们提出了考虑不确定性和时间距离的课程目标，这些目标能够收敛到自动组合的目标空间的最终目标。我们证明了该方法仅仅通过原始目标示例就能在未知环境中实现高效探索，且在各种目标达成任务中，甚至使用自我中心视觉输入时，该方法在数据效率和性能上都优于最先进的课程增强学习方法。

Oct, 2023

iQRL - 隐式量化表示用于高效强化学习

使用自监督的潜在状态一致性损失提出了一种有效的表示学习方法，通过量化潜在表示以保留表示的秩，命名为 iQRL：隐式量化强化学习，可与任何无模型强化学习算法兼容，并在 DeepMind 控制套件的连续控制基准中表现优异，超过其他最近提出的表示学习方法。

Jun, 2024

学做中：带因果感知策略的在线因果强化学习框架

通过引入因果图模型来显式建模状态生成过程，并通过主动干预学习环境，优化衍生目标，提出了一种在探索阶段使用干预进行因果结构学习，然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明，我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下，在故障报警环境中有效且稳健，超越了最先进的基准方法。

Feb, 2024

机器人技能学习的动作量化离线强化学习

我们提出了一种自适应的行动量化方案，通过使用 VQ-VAE 学习状态条件的行动量化，避免了行动空间的指数爆炸问题，并通过离线强化学习方法在基准测试中改进了性能，同时在 Robomimic 环境中的复杂机器人操作任务中，离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。

Oct, 2023

基于向量量化模型的分层仿真学习

本文提出使用强化学习来识别专家轨迹中的子目标，从而构建一个向量量化生成模型，以进行子目标级别的规划，并在复杂的长期决策问题上表现出色，优于现有技术。

Jan, 2023

使用矢量量化编码的深度强化学习

该研究提出了一种名为向量量化的强化学习插件框架，基于向量量化编码的辅助分类任务将状态特征聚类，以提高深度强化学习方法的可解释性，并引入了两种正则化方法以帮助增加聚类之间的区分度和避免 VQ 训练所涉及的风险，该方法在模拟中证明了其提高了可解释性，并研究了其对深度 RL 鲁棒性和泛化能力的影响。

Nov, 2022

因果引导的无数据网络量化

通过构建因果图来模拟预训练模型和量化模型之间的数据生成和差异减少，提出了因果引导的无数据网络量化方法 Causal-DFQ，通过接近因果驱动的干预分布的均衡状态来消除对数据的依赖。

Sep, 2023

基于混合强化学习的数据质量感知混合精度量化

本研究提出了一种名为 DQMQ 的新型混合精度量化框架，可动态地适应不同数据质量，通过学习一个决策规则，它被建模为一种混合强化学习任务，该任务结合了基于模型的策略优化和监督量化训练。通过在混合质量的图像数据集上进行训练，DQMQ 可以在面对不均匀输入质量时隐式地选择每个层的最适宜比特宽度，在各种基准数据集和网络上的大量实验表明，DQMQ 比现有的固定 / 混合精度量化方法更为优越。

Feb, 2023

构建简化和可重用的因果状态抽象用于增强学习

用因果对等建模（CBM）方法在有因子的状态空间中学习动力学和奖励函数的因果关系，以得出最小的，任务特定的抽象。CBM 的隐式动力学模型可以在相同环境中重复使用，实验验证表明 CBM 的学习到的隐式动力学模型比显式模型更准确地识别了底层因果关系和状态抽象。此外，得出的状态抽象能够使任务学习者在所有任务上实现接近理想的样本效率，并在所有任务中优于基线模型。

Jan, 2024