- 基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制
在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs 的转移和奖励动态的因果结构,提供了时间因果图上的 - 部分可观测马尔可夫决策过程中纯探索策略的局限性:观测信息熵的足够性
在部分可观测性问题中,本文研究了将状态熵最大化的简单方法,并提供了对真实状态熵的逼近的上下界,以及如何利用观测函数的特性来计算观测熵的合理化的方法,从而提高性能和对 POMDP 环境下状态熵最大化的进展进行了理论性的描述。
- 约束强化学习的平均奖励目标:基于模型和无模型算法
在这份研究论文中,通过系统研究了强化学习(Reinforcement Learning)在约束条件下的模型方法和无模型方法,着重分析了平均奖励随机决策过程中乐观和后验取样的基础方法以及参数化模型无关方法,同时在解决约束决策过程中提供遗憾保证 - 离散折扣马尔可夫决策过程中熵正则化误差的尖锐估计
研究了无限时间跨度的离散折扣马尔可夫决策过程在熵正则化下引入的误差,证明了该误差在逆正则强度下按指数级别减小,在加权 KL 散度和值函数中均具有问题特定的指数。通过使用自然策略梯度方法中常见的黎曼度量来计算熵正则化马尔可夫决策过程的解与未正 - SaVeR: 基于表格型 MDP 的安全策略评估的最优数据收集策略
本文研究了在表格化马尔可夫决策过程中针对策略评估目的的安全数据收集。我们考虑了行为策略的安全性约束,并提出了一种算法来近似安全的预言算法,并保证其满足安全性约束。通过模拟实验证明该算法在满足约束条件的情况下能够产生低均方误差的策略评估结果。
- 有限状态马尔可夫决策过程中的离线贝叶斯不确定性量化与后验值优化
在这篇文章中,我们解决了以未知动态的有限状态马尔科夫决策过程(MDPs)的离线使用为情景的贝叶斯不确定性的量化并将其合并的挑战。我们的方法提供了一种原则性方法来区分认识不确定性和机缘不确定性,以及一种无需依赖于 MDP 的后验分布的强假设来 - 元强化学习中的测试时后悔最小化
元强化学习,遗憾最小化,马尔可夫决策过程,测试时间遗憾,快速速率
- 多项式逻辑函数近似的强化学习中的随机探索
我们研究了具有多项式逻辑(MNL)函数逼近的强化学习,其中马尔可夫决策过程(MDPs)的基础转移概率内核由具有状态和动作特性的未知转移核参数化。为了有非齐次状态转移的有限时段的情景,我们提出了具有频率后悔保证的随机探索算法,且具有可证明的高 - 在无先验知识的平均奖励马尔可夫决策过程中寻找良好的策略
我们回顾平均奖励马尔可夫决策过程(MDP)中 ε- 最优策略的识别,并提出了一种新算法,在小 ε 范围内其样本复杂度为 SAD/ε^2;此外,我们还提出了一种在线算法,其样本复杂度为 SAD^2/ε^2,并且提出了一种有前景的基于数据相关的 - 高效的递归离策略强化学习需要一个上下文编码器特定的学习率
使用一种称为 RESeL 的方法改善了循环强化学习(RL)中的训练稳定性问题,并在部分可观察的决策任务中获得了显著的性能改进。
- 随机算法与 PAC 界限在连续空间逆向强化学习中的应用
该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程,并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况,并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性, - 利用强化学习处理非累计目标的决策过程
本文介绍了非累积马尔可夫决策过程(NCMDPs)与标准马尔可夫决策过程(MDPs)之间的一种映射关系,并展示了在强化学习中的应用,包括经典控制、金融组合优化和离散优化问题。通过我们的方法,相较于依赖标准 MDPs,我们可以改善最终性能和训练 - 面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度
我们考虑用于赌博机和表格马尔可夫决策过程(MDP)的(随机)softmax 策略梯度(PG)方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛,而不需要设置算法参数。为了解决这个问题,我们借鉴了优化文献的思路,在 - 马尔可夫决策过程中的联邦控制
研究马尔可夫决策过程中的联合控制问题,介绍了多个学习代理的概念,使用名为联合 Q 协议(FedQ)的通信协议解决大状态空间下的 MDP,理论分析了 FedQ 协议的正确性和派生算法 FedQ-X 的样本复杂度,实验证明了方法的有效性。
- IJCAI马尔可夫决策过程下基于分布式避障特性的认证策略验证与合成
该研究论文介绍了以马尔可夫决策过程为基础的状态转换模型及其在控制器验证和综合方面的应用,特别是在分布到达 - 避免规范下的证书合成问题,并提出了自动化方法来合成证书和策略以及验证其正确性。
- 具有条件风险价值的鲁棒风险敏感强化学习
使用固定过渡概率的标准马尔科夫决策过程(MDPs)的替代方案,鲁棒马尔科夫决策过程(RMDPs)在不确定性集合中优化最坏情况下的结果。本文研究了在 RMDP 下基于 CVaR 的风险敏感强化学习的鲁棒性,分析了预先设定的不确定性集合和状态动 - 在大规模状态空间中学习可行的反事实解释
我们提供了一个实验证明的深度网络学习过程,可以在此任务上取得强大的性能表现。我们考虑了几种问题形式,包括在未明确提供 “能力” 和行动影响的情况下的公式,因此存在信息挑战和计算挑战。我们的问题也可以看作是在一系列大型但确定性的马尔可夫决策过 - 统计模型检验基础的改进
Markov 决策过程和统计模型检测在未知转移概率、浓度不等式等方面的改进以及实验评估的重要性。
- ICLR基于树搜索的随机执行延迟下的策略优化
该研究介绍了随机延迟执行马尔可夫决策过程的新形式,通过在马尔可夫决策类中进行策略搜索,提高了性能,并使用 DEZ 算法优化了马尔可夫决策过程的采样效率。
- 估计记录策略的双重稳健离线策略评估
该研究介绍了一种新的双鲁棒离策评估(OPE)估计器,用于未知的日志策略和价值函数情况下,能估计产生半参数下界的最小渐近方差。