基于变分因果推理的离线模仿学习

Oct, 2023

基于变分因果推理的离线模仿学习

Offline Imitation Learning with Variational Counterfactual Reasoning

Bowei He, Zexu Sun, Jinxin Liu, Shuai Zhang, Xu Chen...

TL;DR离线模仿学习中，通过使用计反事实数据增强方法，本研究通过对抗性生成反事实样本来有效消除困扰智能体泛化能力的误导特征，从而解决了专家数据稀缺、仅能记忆差劣轨迹以及环境变化引起的问题。实验结果表明，该方法在内部分布稳健性和外部分布泛化能力方面显著优于其他基线模型。

Abstract

In offline imitation learning (IL), an agent aims to learn an optimal expert behavior policy without additional online environment interactions. However, in many real-world scenarios, such as robotics manipulation, the offline dataset is collected from suboptimal behaviors without rewa

offline imitation learning counterfactual data augmentation generalization variational autoencoder reward scarcity

发现论文，激发创造

因果作用感知的反事实数据增强

离线数据是教导机器人复杂行为的宝贵和实用资源。本文介绍了一种数据增广方法 CAIAC，可以在没有访问在线环境交互的情况下，从一个固定的数据集中创建可行的合成转换。通过利用量化因果影响的原则方法，我们能够通过在数据集中独立轨迹之间交换 “不受动作影响” 的状态空间部分来进行反事实推理。经验证明，这可以显著提高离线学习算法对分布偏移的鲁棒性。

May, 2024

基于模型逆向增强的离线模仿学习

提出了一种新的基于模型的框架 —— 离线模仿学习与自适应反向增强（SRA），该框架通过从离线演示构建反向动态模型，以自适应的方式生成导致专家观察到的状态的轨迹，并使用后续的强化学习方法从增强的轨迹中学习，将从专家未观察到的状态转移到专家观察到的状态。实证结果表明，该方法能够有效减轻协变量漖移，并在离线模仿学习基准上达到最先进的性能。

Jun, 2024

基于联合训练的生成潜空间的强化学习智能体指导的反事实

本篇论文提出了一种基于变分自编码器的生成方法，通过特征代表智能体行为的观察值，生成未知而合理的反事实样本，可以提高强化学习代理的决策质量。

Jul, 2022

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

离线强化学习中的领域外适应性：通过因果规范化流进行反事实推理

通过因果推论而非策略正则化方法，本文提出了 MOOD-CRL（基于模型的线下 OOD 自适应因果强化学习）算法，旨在解决离线策略训练中的外推挑战。通过基于数据不变性、基于物理学的定性因果图和观测数据，我们开发了一种新的学习方案，以学习定量结构因果模型，从而赋予 CNF 预测和反事实推理能力，对顺序决策任务具有较高的 OOD 适应潜力。我们基于 CNF 的线下 RL 方法通过实证评估得到验证，明显优于无模型和基于模型的方法。

May, 2024

通过离线数据缓解模仿学习中的协变量漂移

本研究基于静态离线数据，提出了 MILO 框架及算法，用于高效解决无需在线交互式的模仿学习问题，其能够成功应对较弱行为准则下的状态行为的偏移问题，最终成功模仿高水平行为准则的动作。

Jun, 2021

离线强化学习的预算对比实验

本文提出了一种采用动态规划和固定点求解的方法，用以控制训练中的数据采样分布并改善数据利用效率，在 D4RL 数据集上表现优于其他已有方法的离线强化学习培训方式。

Jul, 2023

离线多智能体强化学习的反事实保守 Q 学习

我们提出了一个新颖的多智能体离线强化学习算法，名为 CounterFactual Conservative Q-Learning (CFCQL)，通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响，并在多个环境中进行了实验验证。

Sep, 2023

利用离线数据加速程序生成环境下的强化学习

研究了强化学习中采用离线轨迹进行数据增强的方法，发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略，预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。

Apr, 2023

表示插值的反事实对抗学习

本文提出了一个基于因果关系的 Counterfactual Adversarial Training 框架（CAT），通过对单个样本生成对应的反事实表示，动态调整样本特有的损失权重，以此鼓励模型探索真实的因果关系，实现在句子分类、自然语言推理和问答等领域的显著性能提升。

Sep, 2021