- 使用 Gumbel 传播的潜在最优路径来进行变分贝叶斯动态规划
本研究提出了一种方法,利用动态规划和 Gumbel 传播在变分自编码器(VAE)的潜在空间中获取结构化稀疏的最优路径,此方法可应用于生成任务的端到端训练,并成功应用于文本转语音和合成歌声。
- 可分离目标的最优决策树:推动动态规划的极限
本研究探索了决策树中子树优化的分离可行性条件及其建立的动态规划框架对于不同应用各目标和约束的普适性。实验证明该框架在可扩展性上优于通用求解器。
- 通过动态规划和次线性分割改进 Allen 的区间代数算法
本文提出了一种新颖的动态规划和亚线性分区技术框架来解决 NP-hard 的定性推理问题,将 Allen 的时间区间代数的复杂度从 O((1.0615n)^ n)降至 O((cn /log n)^ n);提出的算法技术不仅大大提高了 NP-h - 揭示思维链背后的谜团:理论视角
研究表明 Chain-of-Thought 提示可以显著改善大型语言模型的性能,特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨, 然后通过构建的方式证明了带有 CoT 的自回归机器人可以解决基本算术方程 - 语言模型的物理学:第 1 部分,无上下文语法
本研究设计实验以探究生成式语言模型如何学习上下文无关文法,并发现了 Transformer 如何利用物理机制隐式地编码文法结构、形成类动态规划的 attention,并在处理语法错误时表现出的鲁棒性方面的相关拓展。
- 双向解码框架:以形态变化为例的案例研究
本文中,我们提出了一种从外向内生成序列的解码框架,该框架通过动态规划等多种训练方法,支持多种模型结构,并在推土机 2023 转换任务上取得显著提高。
- 设计不连续性
采用定量化理论方法来优化研究关键效应,学习给定不连续变量的因果效应大小,并应用动态规划来设计不连续性的最佳量化,以平衡效应大小中的收益和损失
- 关于静态风险度量的动态规划分解
本论文主要探讨了如何在 Markov 决策过程中,优化静态风险规避目标的问题,针对此问题,先前的研究提出了一种动态风险度量分解的方法,但本文证明了几种现有的分解是不精确的,特别是对于 CVaR 和 EVaR 风险度量,提出的分解方法是低估真 - 无限时间视角下基于部分观测的最坏情况控制与学习
本文研究了安全关键的物理系统所需的控制策略,通过建模系统中的不确定性和模型干扰,提出了一种近似控制和学习框架,并对其进行了数学分析和算法设计。
- 不确定系统最劣控制与学习的近似信息状态
本文研究了在部分观测状态的不确定系统中的离散决策问题,并通过开发信息状态和近似信息状态的概念,提出了一个可行的决策框架。我们使用这一概念定义了近似动态规划,通过输出数据进行学习,以达到有界性能的策略,最后提供了数值实验来说明这一结果在控制和 - 在线内容竞争决策的全动态在线选择方案
本文提出了一种针对完全动态在线选择问题的在线争用解决方案方法,并展示了如何利用该方法在部分信息模型中构建无遗憾算法。
- 通过冻结慢状态实现更快的近似动态规划
论文提出了一种基于动态规划算法框架的近似方法,针对具有快慢结构的无穷状态空间的马尔可夫决策过程,其中 “冻结” 慢状态,通过解决一组简单的有限时段 MDP 以及在一个慢时间尺度(上层 MDP)上进行价值迭代的辅助 MDP 等步骤,生成有效策 - AAAI鲁棒平均奖励马尔科夫决策过程
本篇论文研究鲁棒平均回报 MDP 问题,旨在找到一种策略,使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题,证明了当折扣因子趋近于 1 时,鲁棒折扣价值函数收敛于鲁棒平均回报,并设计了鲁棒动态规 - AAAI最优稀疏回归树
本文提出了一种动态编程方法来构建确切的最优稀疏回归树,并基于一维 k-Means 聚类算法提出了新的下界,我们能够在几秒钟内找到具有挑战性的数据集的最优稀疏树。
- 领域无关的动态规划:组合优化通用状态空间搜索
本研究提出了动态规划问题的一种新的模型化方法:基于动态规划描述语言(DyPDL)的领域无关动态规划(DIDP),并开发了基于状态空间搜索的成本代数 A * 求解器(CAASDy)。 通过实验比较 CAASDy 与商业混合整数规划和约束规划求 - 带障碍的分支定界:用于基于 DD 的分支定界的支配与次优解检测
本论文介绍了一种基于决策图的分支定界算法,利用动态规划模型的结构以及数据结构 Barrier 中的阈值进行剪枝,进而解决优化问题,并结合 Gillard 等人在 2021 年提出的过滤技术进行优化,实验结果表明该方法能够在更短的时间内解决更 - HSVI 能够解决零和部分可观察随机博弈
通过数学分析并且创新引入 HSV1-like 算法解决动态规划问题,其优于现有的线性规划和迭代方法。
- EMNLP带权下推自动机算法
本研究通过改进 Lang 算法,开发了直接处理加权下推自动机的新算法,可以更有效地运用于自然语言处理中,并能够在空间和时间效率上取得优化。
- RASR: 带有 EVaR 和熵风险的风险规避型软鲁棒 MDPs
提出一种新的框架,称为 Risk-Averse and Soft-Robust methods (RASR),用于联合建模有限和无限时域 rMarkov 决策过程(MDP)中的认识不确定性和 aleatory 不确定性与刻画风险。在 RAS - CausNet:基于生成序列排序的动态规划搜索优化贝叶斯网络及其父集约束
本文介绍了一种基于动态规划的贝叶斯网络求解算法,支持高维度数据、连续和分类数据、以及 <a href='Ovarian Cancer'> 卵巢癌 </a> 基因表达数据的准确建模,算法效率高且容易扩展。