因果协同并行强化学习

Jan, 2024

Causal Coordinated Concurrent Reinforcement Learning

Tim Tse, Isaac Chan, Zhitang Chen

TL;DR提出了一种用于数据共享和协调探索的新型算法框架，旨在在并发强化学习设置下学习更加数据高效和性能更好的策略，通过引入因果推断算法提取模型参数，并基于其相似度提出了一种新的数据共享方案，证明了在一组自回归、摆杆和倒立摆任务上具有更快学习速度，展示了在稀疏奖励环境下常规智能体之间多样化行动选择的有效性。

Abstract

In this work, we propose a novel algorithmic framework for data sharing and coordinated exploration for the purpose of learning more data-

algorithmic framework data sharing coordinated exploration concurrent reinforcement learning causal inference

发现论文，激发创造

因果强化学习调查

研究人员通过借鉴因果关系文献的见解，引入因果关系和强化学习，划分了现有 Causal Reinforcement Learning (CRL) 方法的两类，并分析了每一类的不同模型的形式化。

Feb, 2023

合作式深度强化学习

本文提出了一种协作深度强化学习框架，其中包括深度知识蒸馏方法、异构学习任务深度对齐网络、有效的协同 A3C 算法等，用于在不同学习任务中执行自适应知识转移

Feb, 2017

一种用于非监督表示学习的因果排序先验

利用加性噪声模型实现无监督表示学习，并通过潜在分布的 Hessian 构建损失函数以鼓励潜在空间遵循因果排序。

Jul, 2023

基于因果推论的自适应强化学习异常检测方法

本研究提出了一个创新的反事实因果强化学习模型，称为 Tri-CRLAD，利用因果推断机制，显著提高半监督模型的性能，增强模型在面对未知或稀有数据时发现异常数据的能力，并通过三重决策支持机制进一步提升模型的灵活性和泛化能力，在包括卫星系统、医疗系统和健康系统在内的 7 个不同智能系统数据集中，Tri-CRLAD 的性能优于或等于 9 个基准方法，而且极少量的已知异常样本能够显著提高异常检测的稳定性。

May, 2024

学做中：带因果感知策略的在线因果强化学习框架

通过引入因果图模型来显式建模状态生成过程，并通过主动干预学习环境，优化衍生目标，提出了一种在探索阶段使用干预进行因果结构学习，然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明，我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下，在故障报警环境中有效且稳健，超越了最先进的基准方法。

Feb, 2024

渐进上下文动态自适应连续强化学习

本文提出一种基于动态自适应的连续强化学习框架 DaCoRL，采用渐进式上下文建模来对动态环境中的任务进行聚类，利用可扩展多头神经网络来逼近策略，同时借助在线贝叶斯聚类技术精确地分类当前任务并实例化所需的新上下文。在多个机器人导航任务和 MuJoCo 运动任务上进行的实验证明该框架具有更高的稳定性、总体性能和泛化能力。

Sep, 2022

协作进化强化学习

本研究介绍了一种名为 CERL 的可扩展框架，其中包含一组策略，这些策略同时探索和利用解决方案空间的不同区域，并使用神经进化将这个过程绑定在一起，从而生成一个超越任何个体学习器的单个新兴学习器。实验表明，这个新兴学习器在连续控制基准测试中优于其复合学习器，并保持整体更高的采样效率。

May, 2019

胜利的势头：异构环境下的协作联邦强化学习

我们提出了两个算法：FedSVRPG-M 和 FedHAPG-M，通过利用动量机制，不论环境异质性的大小，两个算法都可以精确收敛到平均性能函数的一个稳定点，进一步结合方差降低技术或海森矩阵近似，两个算法均达到了最新的收敛结果，其采样复杂度为 O (epsilon^(-3/2)/N)，同时我们的算法线性加速了收敛速度，并突显了在找到共同策略中代理之间合作的好处。

May, 2024

3D 非静态环境下的持续强化学习

本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略，可以在非稳态的环境下进行端到端无模型学习，并与其他基线方法相比表现出竞争力。

May, 2019

可识别因果表示学习：无监督，多视角，和多环境

通过学习具有因果模型语义的潜在变量表示形式，此研究论文探讨了因果模型在人工智能中的应用和理论基础，重点关注可辨识性问题以及在无直接监督下的表示学习目标可行性。

Jun, 2024