Q-Cogni: 一种融合因果关系强化学习框架

Feb, 2023

Q-Cogni: 一种融合因果关系强化学习框架

Q-Cogni: An Integrated Causal Reinforcement Learning Framework

Cris Cunha, Wei Liu, Tim French, Ajmal Mian

TL;DRQ-Cogni 是一种算法集成的因果强化学习框架，可通过自主因果关系发现方法重新设计 Q-Learning，从而在具有状态 / 动作空间的机器学习环境中实现最优学习和推理，并提高强化学习代理的决策可解释性。在应用 Q-Cogni 于车辆路径问题（VRP）中，我们将其与最先进的强化学习算法进行比较，并报告结果，表明该框架具有更好的策略、改进的学习效率和更高的代理决策的可解释性。同时与传统最短路径搜索算法进行比较，并且基于纽约市的出租车和豪华轿车委员会旅行记录数据应用 Q-Cogni 求解最佳路径选择问题，得出的结果表明在真实世界的情况下，其结果相比于最短路径搜索得到的结果有 85% 以上的数据是一样或更好的。

Abstract

We present Q-Cogni, an algorithmically integrated causal reinforcement learning framework that redesigns Q-Learning with an autonomous causal structure discovery method to improve the learning process with causal inference. Q-Cogni achieves optimal learning with a pre-learned structural causal model of the environment that can be queried during the learning

causal reinforcement learning structural causal model vehicle routing problem interpretability new york city

发现论文，激发创造

学做中：带因果感知策略的在线因果强化学习框架

通过引入因果图模型来显式建模状态生成过程，并通过主动干预学习环境，优化衍生目标，提出了一种在探索阶段使用干预进行因果结构学习，然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明，我们的方法在因果指导的策略学习和因果结构学习的良性循环的推动下，在故障报警环境中有效且稳健，超越了最先进的基准方法。

Feb, 2024

CQM：基于量化世界模型的课程强化学习

我们提出了一种新的课程方法，通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战，并改善课程的可伸缩性。我们通过向量量化变分自动编码器 (VQ-VAE) 将连续观测离散化，并通过图形恢复离散观测之间的时序关系。同时，我们提出了考虑不确定性和时间距离的课程目标，这些目标能够收敛到自动组合的目标空间的最终目标。我们证明了该方法仅仅通过原始目标示例就能在未知环境中实现高效探索，且在各种目标达成任务中，甚至使用自我中心视觉输入时，该方法在数据效率和性能上都优于最先进的课程增强学习方法。

Oct, 2023

Nav-Q：自动驾驶汽车无碰撞导航的量子深度强化学习

本研究提出了 Nav-Q，首个融合量子计算的深度强化学习（Deep Reinforcement Learning）算法，用于自动驾驶车辆的无碰导航（collision-free navigation）问题。通过量子计算方法提高训练性能，无需车辆上的量子硬件设备。实验证明，Nav-Q 在训练稳定性和收敛速度方面超越了传统方法，并且不会对代理的学习策略产生负面影响。与经典方法相比，引入量子组件的模型具有更强的描述能力。此外，使用噪声量子模拟评估了 Nav-Q 的性能，发现量子噪声可以增强代理在训练过程中的探索倾向。

Nov, 2023

细粒度的因果动力学学习与量化技术在增强学习中的鲁棒性改进

我们提出了一种新的动力学模型，通过推断细粒度的因果结构并用于预测，以改善强化学习中的鲁棒性。该模型通过将状态 - 动作空间离散化为子群，共同学习动力学模型和离散潜变量的关键点子，从而识别显示稀疏依赖性的有意义的上下文，并在训练中为每个子群学习因果结构。实验结果证明了我们的方法在未见状态和局部干扰相关性的下游任务中显示出的鲁棒性，以及与先前方法相比，基于子群和离散化方法在发现细粒度因果关系方面的有效性。

Jun, 2024

强化学习下的因果问答

本研究利用强化学习在 CauseNet 知识图谱上应用 Actor-Critic 方式，通过搜索图谱回答因果问题，并通过经验学习和算法改进降低搜索空间，结果表明与朴素的宽度优先搜索相比，每个二元因果问题访问不到 30 个节点，在路径上的边均有原始来源，可轻松验证。

Nov, 2023

远程操作驾驶场景中的 PQoS 强化学习框架

本文提出了一个基于强化学习的 PQoS 功能设计，重点是学习代理的奖励函数设计及将 QoS 估计转换为适当的对策，实现了在受控驾驶场景下最佳 QoS 和 QoE 性能。

Feb, 2022

元强化学习推理因果关系

研究通过元强化学习是否可以发现因果推理，在这项研究中，我们训练了一个递归神经网络对包含因果结构的一系列问题进行无模型强化学习，证明了该代理可以在新的情况下进行因果推理，从观测数据中得出因果推断结果以及进行反事实预测，我们提出这种学习方法也可以在复杂的推理场景中进行因果推理，同时该工作还提供了新的强化学习结构探索策略。

Jan, 2019

基于排序的强化学习因果探索

本篇研究提出了一种新颖的基于强化学习 (RL) 的因果推断方法，通过将 RL 合并到基于排序的模式中，并通过一个编码器 - 解码器架构实现排序生成过程，并最终使用 RL 优化所提出的模型来处理生成的排序，以获得最终的因果图。在合成和真实数据集上的实验结果表明，所提出的方法比现有的 RL-based 方法具有更好的性能。

May, 2021

运用变分因果推理泛化目标条件强化学习

利用 Causal Graph 加强了 Goal-Conditioned RL，提出了一种理论性能保证的优化框架，包括因果性发现、转换建模和策略训练的循环以提高 RL 代理的推理和泛化能力，并在九种任务上与五个基线进行了实证效果验证。

Jul, 2022

一种基于深度强化学习的多智能体协作控制框架：图形卷积 Q 网络

本文提出一种基于 GCN 和 DQN 的深度强化学习方法，名为 GCQ，用于信息融合和决策处理，以便协同感知获取的信息可以实现多辆 CAV 的安全和协作换道决策，从而达到个体意愿的满足，即使在高度动态和部分观察到的混合交通状况下，可以部署在道路边缘单元或云平台等集中控制基础设施上，以提高 CAV 运作。

Oct, 2020