朝向因果感知增强学习：基于状态的动作细化时间差分

Jan, 2022

朝向因果感知增强学习：基于状态的动作细化时间差分

Toward Causal-Aware RL: State-Wise Action-Refined Temporal Difference

Hao Sun, Taiyi Wang

TL;DR此研究提出了基于状态修正行动的方法以解决动作空间冗余和促进强化学习中的因果关系发现，并探讨了两种解决方案：TD-SWAR 和 Dyn-SWAR，用于改善动作冗余任务中的学习效率。

Abstract

Although it is well known that exploration plays a key role in Reinforcement Learning (RL), prevailing exploration strategies for continuous control tasks in RL are mainly based on naive isotropic Gaussian noise regardless of the causality relationship between action space and the task

reinforcement learning causality discovery swar action space learning efficiency

发现论文，激发创造

强化学习中状态和动作空间的安全探索

本篇论文针对强化学习中的安全探索这一问题，提出 PI-SRL 算法在解决复杂任务，包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。

Feb, 2014

为可解释强化学习进行因果状态精炼

本文介绍了一种扩展奖励分解方法的因果学习框架，通过利用信息论度量的解释目标来鼓励因果因素的三个关键属性：因果充分性、稀疏性和正交性，并通过提取智能体状态、动作或奖励之间的因果关系深入理解其决策过程，从而为行动选择提供更有意义和有洞察力的解释。

Dec, 2023

从语义到执行：将动作规划与强化学习相结合，用于机器人因果问题解决

本文介绍了一种基于奖励稀疏性的桥梁方法，将符号行动计划和强化学习相结合，以解决在噪声条件下涉及工具使用和复杂因果依赖的对象操作问题，并成功利用了数据和知识。

May, 2019

学做中：带因果感知策略的在线因果强化学习框架

通过引入因果图模型来显式建模状态生成过程，并通过主动干预学习环境，优化衍生目标，提出了一种在探索阶段使用干预进行因果结构学习，然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明，我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下，在故障报警环境中有效且稳健，超越了最先进的基准方法。

Feb, 2024

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

使用对比样本在强化学习中识别和利用可能的因果关系

本文提出了一种名为对比经验回放的训练方法，通过标记与前后奖励差异较大的状态转移，将其加入独立的回放缓冲区，并包括来自类似状态但不同行动的对比样本，该方法在 2D 导航任务上优于标准基于值的方法，对许多离线策略强化学习算法也具有广泛应用价值。

Oct, 2022

通用强化学习中大规模动作空间的精确缩减

本论文针对强化学习中的大行为空间问题进行研究，在提出非 MDP 情况下如何使用 action-binarization 来提高 Extreme State Aggregation（ESA）界限的同时，提供一个 logarithmic 规模上限的 binarized ESA 方案。

Dec, 2020

基于时间逻辑因果图的强化学习

论文提出了一种基于时序逻辑的因果图 RL 算法，通过识别环境中代理可以确定预期奖励的配置来减少探索，实现更快的收敛。

Jun, 2023

通过继承表征进行离散状态 - 行动抽象化

本文提出了一种自动学习基于状态抽象的离散化模型，命名为 Discrete State-Action Abstraction (DSAA)，可以有效地解决强化学习中的任务，并且对探索方案的影响进行了模拟和验证。

Jun, 2022