领域无关动态规划

Jan, 2024

Domain-Independent Dynamic Programming

Ryo Kuroiwa, J. Christopher Beck

TL;DR基于动态规划 (DP) 的领域无关动态规划 (DIDP) 模型具有优于其他方法的性能，通过引入七种 DIDP 求解器和对 11 种组合优化问题类别的基准测试，实验证明 DIDP 在大部分问题类别中优于混合整数规划 (MIP) 和约束规划 (CP)。

Abstract

For combinatorial optimization problems, model-based paradigms such as mixed-integer programming (MIP) and constraint programming (CP) aim to decouple modeling and solving a problem: the `holy grail' of declarati

combinatorial optimization model-based paradigms dynamic programming heuristic search algorithms benchmark instances

发现论文，激发创造

领域无关的动态规划：组合优化通用状态空间搜索

本研究提出了动态规划问题的一种新的模型化方法：基于动态规划描述语言（DyPDL）的领域无关动态规划（DIDP），并开发了基于状态空间搜索的成本代数 A * 求解器（CAASDy）。通过实验比较 CAASDy 与商业混合整数规划和约束规划求解器，我们表明 CAASDy 在许多常见问题类上优于 MIP 和 CP 模型。

Nov, 2022

离散与连续状态 MDP 的符号动态规划

本文介绍了符号动态规划（SDP）技术的扩展，提供了一种能够处理离散和连续状态的马尔可夫决策过程（DC-MDP）的最优解决方案，在 XADD 中引入约束基剪枝以提高效率。SDP 与 XADD 用于声明性问题的自动规划，从而实现在 DC-MDP 的线性和非线性函数中生成最优解决方案。

Feb, 2012

谓词逻辑作为建模语言：采用 IDP3 进行机器学习和数据挖掘问题的建模与解决

该论文提供了使用 IDP3 系统解决问题的简要介绍，介绍了 IDP3 的核心部分 - 有限模型生成器，它支持第一阶逻辑，以及丰富了类型，归纳定义，聚合和部分函数。除了小的例子，文章举了三个应用实例，分别涉及 philology、生物学和学习最小化自动机。

Sep, 2013

混合约束下的动态规划优化

通过引入 DPMC 和 DPO，结合动态规划和代数决策图技术实现了精确求解更为一般化的最大概率解释问题 Boolean MPE，并在随机生成的混合子句 - 异或范式公式实验中显著优于目前的 MaxSAT 状态最优求解器。

May, 2022

线性规划方法求解约束部分可观测的马尔可夫决策过程

使用 LP 模型结合基于网格的近似方法生成近似策略，研究了解决限制观测 Markov 决策过程的效果。结果表明，LP 模型可有效地生成有限和无限时间段问题的近似策略，同时提供将各种附加约束集成到模型中的灵活性。

Jun, 2022

一种新的动态分布式规划方法：应用于 DPDP 问题

本研究提出了一种新的动态分布式规划方法，能够考虑智能体引入的动作变化，以适应环境中的变化。该方法使用遗传算法满足约束条件生成新的规划，每当智能体的动作集发生变化时，就会生成一个新的规划，使其考虑新引入的动作及旧规划中未执行的动作，以及新引入动作引起的新初始状态。通过具体案例展示并证明了该方法的实用性。

Feb, 2024

Distributional MIPLIB：一种推进 ML-Guided MILP 方法的多领域库

这篇论文介绍了 Distributional MIPLIB，一个多领域问题分布库，用于推进基于机器学习引导的 MILP 方法的研究。通过从现有的工作和未使用的实际问题中策划 MILP 分布，并对其进行不同难度级别的分类，它为该领域的研究提供了便利，从而实现了对多样化和现实领域的全面评估。我们通过两种方式经验性地说明了使用 Distributional MIPLIB 作为研究工具的好处：评估了在先前未使用的分布上使用 ML 引导变量分支的性能，以确定改进的潜在领域；此外，我们提出了从混合分布中学习分支策略，证明了与同质分布相比，当数据有限且能很好地推广到较大实例时，混合分布能实现更好的性能。

Jun, 2024

混合整数规划作为一层

该研究介绍了一种新的决策集中学习方法，可以优化预测模型，支持将问题编码为混合整数线性规划，并使用割平面算法求解。实验结果表明，该方法在多个实际领域中的性能优于现有方法。

Jul, 2019

网络化多智能体马尔可夫决策过程的分布式动态规划

该论文旨在研究分布式动态规划来解决网络化多智能体马尔可夫决策问题，通过控制理论视角提出了在连续时间领域的分布式动态规划，并证明了其收敛性，该分析可被视为分布式时态差异学习算法的初步常微分方程分析，其收敛性可通过 Borkar-Meyn 定理和单时间尺度方法证明。

Jul, 2023

约束马尔可夫决策过程的原始对偶方法

本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程，通过应用正则化策略迭代来改善策略，应用次梯度上升来保持约束。在弱耦合结构的情况下，通过嵌入式分解方法，能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度，并表明它产生优于现有启发式算法的控制。

Jan, 2021