CIER：一种基于因果推断的深度强化学习经验回放新方法

May, 2024

CIER：一种基于因果推断的深度强化学习经验回放新方法

CIER: A Novel Experience Replay Approach with Causal Inference in Deep Reinforcement Learning

Jingwen Wang, Dehui Du, Yida Li, Yiyang Li, Yikang Chen

TL;DR在深度强化学习（DRL）的训练过程中，面对训练量和模型复杂度的增加，如何提高数据利用和 DRL 训练的解释性仍然是一个具有挑战性的问题。本文通过关注时间序列中的时间维度内的时间相关性来解决这些挑战，并提出了一种将多变量时间序列分割为有意义子序列并基于这些子序列表示时间序列的新方法。此外，利用子序列进行因果推断来识别对训练结果有重要影响的基本因果因素，并设计了一个模块在 DRL 训练过程中提供因果反馈。多个实验证明了我们方法在常见环境中的可行性，证实了其增强 DRL 训练有效性以及在训练过程中提供一定程度的解释性的能力。此外，我们通过优先级经验回放算法扩展了我们的方法，并实验证实了方法的持续有效性。

Abstract

In the training process of deep reinforcement learning (DRL), agents require repetitive interactions with the environment. With an increase in training volume and model complexity, it is still a challenging problem to enhance data utilization and →

deep reinforcement learning data utilization explainability temporal correlations causal inference

发现论文，激发创造

使用对比样本在强化学习中识别和利用可能的因果关系

本文提出了一种名为对比经验回放的训练方法，通过标记与前后奖励差异较大的状态转移，将其加入独立的回放缓冲区，并包括来自类似状态但不同行动的对比样本，该方法在 2D 导航任务上优于标准基于值的方法，对许多离线策略强化学习算法也具有广泛应用价值。

Oct, 2022

因果强化学习调查

研究人员通过借鉴因果关系文献的见解，引入因果关系和强化学习，划分了现有 Causal Reinforcement Learning (CRL) 方法的两类，并分析了每一类的不同模型的形式化。

Feb, 2023

关于因果表示的可重用性与组合性

DECAF 是一个从时间序列图像学习因果表示的框架，通过与现有的因果表示相结合，在新环境中准确表示只需很少的样本。

Mar, 2024

一种用监督数据提高采样效率的演员 - 评论家强化学习方法在对话管理中的应用

介绍了两种神经网络算法 ——trust region actor-critic with experience replay (TRACER) 和 episodic natural actor-critic with experience replay (eNACER)，以加速深度强化学习，在线学习过程中的效果，并利用演示数据来预先训练深度强化学习模型，以缓解冷启动问题。

Jul, 2017

合成体验回放

通过利用生成模型技术，我们提出了 Synthetic Experience Replay（SynthER），这是一种基于扩散的方法，能够有效地提高在数据有限的情况下训练强化学习代理的样本效率，并为重放学习算法的深度学习实现开启了使用合成数据的大门。

Mar, 2023

CUER：适用于离策略连续深度强化学习算法的修正统一体验重播

本文提出了一种新算法 CUER，该算法在考虑所有其他经验的公平性的同时，通过使采样状态分布更接近于策略，以解决经验回放中转换重要性动态调整的问题，从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。

Jun, 2024

RICE: 强化学习训练突破瓶颈的解释方法

我们提出了一种创新的强化学习改进方案 RICE，该方案通过结合默认初始状态和通过解释方法确定的关键状态构建新的初始状态分布，以鼓励智能体从混合的初始状态进行探索，理论上保证了改进方案具有更紧密的次最优性限制，评估结果表明 RICE 在增强智能体性能方面显著优于现有的改进方案。

May, 2024

强化经验重放的连续学习

本研究提出了一种基于强化经验回放的连续学习方法，通过使用当前训练数据模仿未来经验，以及蒸馏内存缓冲区的过去经验，来提高模型的预测一致性，从而有效保留已获得的知识。实验结果表明，我们的方法在多个图像分类数据集上优于现有方法。

May, 2023

可识别因果表示学习：无监督，多视角，和多环境

通过学习具有因果模型语义的潜在变量表示形式，此研究论文探讨了因果模型在人工智能中的应用和理论基础，重点关注可辨识性问题以及在无直接监督下的表示学习目标可行性。

Jun, 2024

因果协同并行强化学习

提出了一种用于数据共享和协调探索的新型算法框架，旨在在并发强化学习设置下学习更加数据高效和性能更好的策略，通过引入因果推断算法提取模型参数，并基于其相似度提出了一种新的数据共享方案，证明了在一组自回归、摆杆和倒立摆任务上具有更快学习速度，展示了在稀疏奖励环境下常规智能体之间多样化行动选择的有效性。

Jan, 2024