通过最小化分布健壮边界来近似动态规划

May, 2012

通过最小化分布健壮边界来近似动态规划

Approximate Dynamic Programming By Minimizing Distributionally Robust Bounds

Marek Petrik

TL;DR本文描述了一种新的近似动态规划方法 —— 分布式鲁棒性近似动态规划，通过最小化对策略损失的悲观界限来解决维度灾难，将 ADP 转化为优化问题，提高了现有 ADP 方法的理论保证。 DRADP 保证收敛和基于 L1 范数的误差界限，并在基准问题上展示了良好的性能表现。

Abstract

approximate dynamic programming is a popular method for solving large Markov decision processes. This paper describes a new class of approximate dynamic programming (ADP) methods- distributionally robust ADP-that address the curse of dimensionality by minimizing a pessimistic bound on

approximate dynamic programming markov decision processes adp methods optimization dradp

发现论文，激发创造

面向序列决策的分布稳健优化

该研究探讨了在不确定参数的最具对抗性分布下，实现最大期望总回报的分布鲁棒 MDP，通过在模糊集格式中加入不确定性的广义矩和统计距离信息，将泛化动量和统计距离模糊集的现有研究推广到后者类别，进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下，当满足一些温和的技术条件时，可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。

Jan, 2018

近似动态规划的理论和数值分析及其近似误差

本研究探讨了近似动态规划中每次迭代的近似误差如何影响最终结果的质量，研究表明可以基于一些已知量和可验证的假设获得一定范围内的最优解，同时通过计算控制近似误差的上界得到系统稳定的充分条件，最后在轨道机动问题中验证了理论研究的假设并应用了稳定性与优化的条件。

Dec, 2014

基于分布鲁棒的强化学习基础探讨

鉴于训练和部署之间环境变化的需求，我们对分布稳健强化学习（DRRL）的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程（DRMDPs）为核心的综合建模框架，我们严谨地构建了适用于决策者和对手的各种建模属性。此外，我们还研究了对手引起的偏移的灵活性，并检验了动态规划原理的存在条件。从算法的角度来看，动态规划原理的存在具有重要意义，因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。

Nov, 2023

私有随机非凸优化：自适应算法和更紧的泛化界

研究不同 ially private (DP) 算法在随机非凸优化中的应用，通过提供对私有梯度法的分析，提出了 DP RMSProp 和 DP Adam 等最佳算法来达成更快的收敛速度，在两个流行的深度学习任务中，证明了 DP 自适应梯度法比标准的 DP SGD 更具有优势。

Jun, 2020

动态策略编程

本文提出了一种新的策略迭代方法 —— 动态策略规划（DPP），用于在无限时间马尔可夫决策过程（MDP）中估计最优策略，证明了 DPP 在估计和近似误差存在的情况下的有限迭代和渐进 l∞-norm 性能损失边界，通过数值实验表明，与现有的强化学习方法相比，在所有情况下，基于 DPP 的算法表现出更好的性能。

Apr, 2010

强化学习中生成模型分布稳健性的研究

研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距，采用分布鲁棒马尔可夫决策过程的框架，在规定的不确定性集合范围内学习最优性能策略，对于不同的不确定性集合，分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性，结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习，而是依赖于不确定性集合的大小和形状。

May, 2023

BNN-DP: 通过动态规划对贝叶斯神经网络进行鲁棒性认证

本文介绍了 BNN-DP，它是一种用于分析贝叶斯神经网络的对抗鲁棒性的高效算法框架。该算法使用动态规划算法来限定网络的预测范围，同时具备一般性和高效性。

Jun, 2023

马尔可夫决策过程中的弱分布重叠下的离策略评估

在马尔可夫决策过程的顺序忽略性下，具有两重鲁棒性的方法在离线策略评估中具有良好的性能，通过引入一种截断两重鲁棒估计器，该方法能够在不满足强分布重叠假设的情况下实现准确的离线策略评估。

Feb, 2024

从数据到决策：分布鲁棒优化是最优的

本文研究随机程序的优化问题，其中决策者不能观察到外生不确定性的分布，但可以访问此分布的有限样本。作者提出了一种元优化问题来找到最不保守的预测器和处方器，以及遵守它们的样本外失望约束。利用大偏差理论的工具，作者证明了该元优化问题有唯一解。最佳预测器 - 处方器对可以通过在距离数据的经验分布一定的相对熵距离内的所有分布上求解一个分布的鲁棒优化问题来获得。

Apr, 2017

一个适用于单调价值函数的近似动态规划算法

提出了一种名为 Monotone-ADP 的算法，利用价值函数的单调性来提高收敛速度，在三个应用领域中展示了数值结果，可以用比计算最优解所需计算量少两个数量级的迭代次数获得高质量解决方案。

Jan, 2014