强化学习在随机有向图中的可达性分析

Feb, 2022

强化学习在随机有向图中的可达性分析

Reachability analysis in stochastic directed graphs by reinforcement learning

Corrado Possieri, Mattia Frasca, Alessandro Rizzo

TL;DR使用强化学习方法，我们通过特征化随机定向图中的可达性概率，展示了随机定向图中的转移概率动态可以被建模成一个差分包含，进而被理解为一个 Markov 决策过程。通过这个框架，我们提出了一种确定奖励功能的方法，以提供随机定向图中一组节点的可达性概率上下限。该方法的有效性通过应用于由移动代理的接近模式生成的时间变化的接触网络的流行病疾病扩散得到证明。

Abstract

We characterize the reachability probabilities in stochastic directed graphs by means of reinforcement learning methods. In particular, we show that the dynamics of the transition probabilities in a stochastic di

stochastic digraphs reinforcement learning markov decision process reachability probabilities epidemic diseases

发现论文，激发创造

通过随机可达性量化推荐系统中的可用性和发现性

本文探讨了交互式推荐系统中偏好模型如何影响内容可用性和用户的发现机会，并以基于随机可达性的评估过程为基础提出了一种量化推荐目标内容到达用户的概率上限的方法。该指标能够有效检测内容可用性的偏见，诊断用户发现机会的限制，展示出选择规则和用户干预对推荐过程的影响以及这些影响的分布是否均匀。

Jun, 2021

贝叶斯神经网络的概率式到达 - 避免

本研究主要探讨基于模型的强化学习中的安全性和鲁棒性问题，包括使用贝叶斯神经网络描述动态模型来计算迭代预测的到达 - 避免概率，以及使用控制综合算法综合出最佳控制策略以满足安全性约束和学习到的动态模型。

Oct, 2023

基于数据驱动的带有符合推理的随机动态系统可达性分析

使用符合推断进行基于数据驱动的离散时间随机动态系统的可达性分析，将数据集转化为代理预测模型，通过符合推断量化预测模型的误差，从而提供概率可达性保证。该方法适用于复杂闭环动态难以使用符号模型建模的学习增强控制系统。

Sep, 2023

BBReach: 深度强化学习系统的紧凑且可扩展的黑盒到达性分析

本文提出了一种针对 DRL 系统的紧密可扩展的可达性分析方法，使用抽象状态处理内嵌的神经网络以避免神经网络的过估计，并设计了一种名为 BBReach 的工具来评估其紧密性、可扩展性和效率。

Nov, 2022

利用强化学习和图神经网络控制图动态

考虑通过有限的干预来控制动态过程。我们将这个问题表述为关于时间图过程的顺序决策问题，并设计了一个新颖的可行方案来控制时间图上的动态过程。我们成功地将方法应用于两个流行问题：优先考虑哪些节点进行检测以限制疫情传播，以及影响最大化问题。

Oct, 2020

目标管的随机可达性：理论和计算

本文利用概率规定的安全性和性能提出了一种针对随机扰动下的约束动态系统的一种优化算法，在考虑时间变化状态约束的情况下，最大化状态始终保持在限定区域内的概率，我们提供充分的条件使随机可达集是闭合、紧凑和凸形的，并提供一种随机传递集估计技术。

Oct, 2018

概率图反馈的随机在线学习

研究概率图反馈下的随机在线学习问题，分析算法设计和渐近下限，并得出回避上限与下限匹配的结论。

Mar, 2019

使用深度强化学习计算稀有事件的转变路径

在计算物理、化学和生物学领域中，了解复杂系统中亚稳态之间的转变事件是重要的课题。本文将路径查找任务作为特定路径空间上的成本最小化问题进行了阐述，并利用深度确定性策略梯度算法（DDPG）中的演员 - 评论者方法来解决该问题。所提出的方法利用增强学习的开发和探索性质来高效采样转变事件并计算全局最优的转变路径。通过对包括扩展的 Mueller 系统和七粒子 Lennard-Jones 系统在内的三个基准系统的实证，我们展示了所提出方法的有效性。

Apr, 2024

具备到达避免保证的随机系统学习控制策略

本论文介绍了一种利用神经网络提供形式化到达 - 避免保证的方法，通过在随机非线性动态系统中学习控制器来解决实现证明的问题，以及提出了超级马丁格尔的概念作为证明，并通过对 Lyapunov 函数的确定性系统的随机扩展上的级集的约束来提供可达性和避开保证。

Oct, 2022

马尔可夫决策过程验证学习算法

提出了一个泛用的框架，应用学习算法和启发式指导来验证马尔可夫决策过程 (MDP)，主要关注概率可达性问题，包括精确和近似的情况，不受时间限制或折扣因子等条件的限制。

Mar, 2024