强化学习效率提升的因果影响检测

Jun, 2021

强化学习效率提升的因果影响检测

Causal Influence Detection for Improving Efficiency in Reinforcement Learning

Maximilian Seitzer, Bernhard Schölkopf, Georg Martius

TL;DR本文研究如何通过对强化学习智能体在特定情况下的影响力进行测量，结合条件互信息将此度量值引入强化学习算法，提高机器人操作任务中的数据效率。

Abstract

Many reinforcement learning (RL) environments consist of independent entities that interact sparsely. In such environments, RL agents have only limited influence over other entities in any particular situation. O

reinforcement learning independent entities conditional mutual information exploration data efficiency

发现论文，激发创造

基于视觉模型的强化学习因果关系发现的系统评价

本文研究在机器学习中从观察数据中识别因果关系的问题，探讨如何帮助学习高级变量及其中的因果结构，并介绍了一套基于强化学习的环境用于测试表示学习算法的性能。研究表明，模型中显式地融合结构和模块化有助于因果识别。

Jul, 2021

提高强化学习健壮性的因果反事实

本研究提出 CausalCF，将因果推理与强化学习相结合，使得该模型在复杂任务上更加稳健，同时，实验表明 CausalCF 已经成为了第一个完整的能够将 Causal Curiosity 和 CoPhy 思想融入的因果强化学习解决方案。

Nov, 2022

学做中：带因果感知策略的在线因果强化学习框架

通过引入因果图模型来显式建模状态生成过程，并通过主动干预学习环境，优化衍生目标，提出了一种在探索阶段使用干预进行因果结构学习，然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明，我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下，在故障报警环境中有效且稳健，超越了最先进的基准方法。

Feb, 2024

情景依赖的因果影响基础下的合作多智能体强化学习

提出了一种名为 Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning (SCIC) 的新型多智能体强化学习算法，通过基于因果关系干预和条件互信息，探测特定情况下智能体间的因果影响，从而促进智能体之间的合作。实验结果表明与其他算法相比，该方法优于目前最先进的方法。

Dec, 2023

基于排序的强化学习因果探索

本篇研究提出了一种新颖的基于强化学习 (RL) 的因果推断方法，通过将 RL 合并到基于排序的模式中，并通过一个编码器 - 解码器架构实现排序生成过程，并最终使用 RL 优化所提出的模型来处理生成的排序，以获得最终的因果图。在合成和真实数据集上的实验结果表明，所提出的方法比现有的 RL-based 方法具有更好的性能。

May, 2021

网络强化学习的因果性质

强化学习和因果建模在互补中相当自然地互相配合。本研究论文考察了哪些强化学习设置可以受益于因果建模，以及如何进行。

Mar, 2024

用于因果发现的元强化学习算法

本文中提出了一种利用元强化学习算法，通过学习干预变量的方法来进行因果发现并构建明确的因果图的方法，研究表明与现有最先进的方法相比表现出的结果更好，揭示了这种干预策略对于该方法性能的贡献。

Jul, 2022

增强学习的因果解释：量化状态和时间重要性

本文研究了强化学习中的可解释性问题，提出了一种基于因果关系的解释机制并通过模拟实验验证了其在解释政策方面的优势。

Oct, 2022

社交影响：多智能体深度强化学习的内在动机

提出了一种通过奖励代理对其他代理的行为产生因果影响来实现多智能体强化学习中的协调和沟通的统一机制，通过使用反事实推理来评估因果影响，结果显示影响导致在具有挑战性的社交困境环境中协调性和沟通的增强，同时增加了深度强化学习代理的学习曲线，并且在学习沟通协议方面也更有意义。

Oct, 2018

因果好奇：强化学习智能体发现自我监督实验用于因果表征学习

本文提出了一种名为 causal curiosity 的新的内在奖励方法，通过将其融入强化学习代理中，使代理能够通过自己生成的实验数据，以更少的数据量进行自我监督学习，发现环境中的因果关系，并能够将其应用于更复杂的任务之中。

Oct, 2020