- 模型基强化学习中决策时间与背景规划的理解
本研究旨在理解在需要快速响应的领域中,决策时间规划和背景规划哪一种规划方式在何种条件和哪种设置下表现更好。经过数理分析和实验验证,本研究发现,尽管在传统实例下,决策时间规划的表现不如背景规划,但在现代实例的规划和学习以及迁移学习领域中,决策 - 集成深度强化学习与动态规划的自主编队控制
本文提出了一种基于深度增强学习和动态规划的算法 Finite-Horizon-DDPG-SS,用于解决车队中车辆跟随控制问题,通过真实驾驶数据的仿真验证了该算法的有效性,并且能够提高车队的安全性和稳定性。
- 无限时间马尔可夫决策过程解决方案的形式验证方法
本文利用交互式定理证明器 Isabelle/HOL,对于解决马尔科夫决策过程(MDPs)的可执行算法进行正式验证,并基于此分析验证动态规划算法来解决表格 MDPs,实验结果表明该系统可以与最先进的系统竞争甚至超过它们。
- 从搜索中学习非自回归模型用于无监督句子摘要
该文提出了一种名为 NAUS 的非自回归无监督摘要方法,使用基于编辑的搜索生成伪基准摘要,并在此基础上训练一个仅含编码器的非自回归 Transformer,通过动态规划方法进行长度控制解码,实现了在无监督摘要中取得最新的性能提升,同时提高了 - 有向无环图中的快速因果方向学习
本文介绍一种新型的算法 ——Meek 函数,在解决多个 Causal Orientation Learning 问题方面具有显著的优势,同时提出一种基于动态规划的方法应用 Meek 函数,并据此推导了结果干预引起的边缘序数和一种校验有向边属 - DPER: 针对存在 - 随机难题的动态规划
本研究将 graded project-join trees 上的动态规划方法扩展到了 ER-SSAT 问题,并实现了名为 DPER 的动态规划求解器。实证评估表明,DPER 在低宽度问题实例上具有与最先进的 ER-SSAT 求解器(DC- - CVPR基于时序对比学习的细粒度弱监督时序动作定位
本论文旨在提高弱监督行动定位任务的性能,通过设计了 Fine-grained Sequence Distance(FSD)对比和 Longest Common Subsequence(LCS)对比两个互补型对比模块(Contrastive - 图神经网络是动态规划程序员
本文研究了神经算法推理与图神经网络的最新进展,特别关注神经网络的动态规划以及范畴论和抽象代数,验证了它们之间的内在联系,得到在边缘任务上更坚实的 GNN 体系结构,并在 CLRS 算法推理基准测试中证明了实证结果。
- CVPR多视角教学视频的弱监督在线动作分割
本文提出了一种弱监督的在线动作分割框架,采用动态规划方法来在线分割流媒体视频,并通过引入 Online-Offline Discrepancy Loss(OODL)优化分割结果的时间一致性,同时仅在训练期间使用多视角帧级一致性作为弱标注来提 - 动态规划和自监督评分在已发现的音素单元上的词语分割
本文主要介绍一种基于 self-supervised 网络和动态规划的新颖 unsupervised 语音分割方法,其中采用自底部方法探索单元发现,从而得到符号感知的单语音分割结果。该方法在英语和其他语言上都表现出令人满意的结果,并且在 Z - 变形一维物体的高效空间表示和路径规划
本文提出了一种新的方法来路由可变形的一维物体,该方法基于将空间几何分解为凸子空间的方式进行空间表示,使用一种快速的动态规划序列匹配方法计算下一个路由移动,并将路由和高效配置耦合以提高规划时间。实验结果表明,该方法能够正确地计算下一个操纵动作 - Few-Bit Backward: 激活函数的量化梯度用于减少内存占用
本篇论文研究了神经网络训练中的内存占用问题,在点乘非线性函数导数的逼近上采用动态规划算法等方法进行量化,以显著减少内存占用和保证相同的收敛性能。
- 字符串的模糊分割
本文讨论了数据聚类问题中的一种情况,提出了使用前缀结构跟踪文本片段到模糊属性的映射过程来解决模糊模式匹配问题的启发式算法。另外,还考虑了模糊模式下最佳分割整个文本的问题,并使用动态规划方法得到解决。
- 利用无记忆试验开发客户终身价值
本文提出了一种解决 LTV 模型困难的通用方法,基于动态规划求解,可应用于不同服务场景,实验结果验证其有效性,应用于大型电商移动应用程序中,LTV 增长了 10%。
- ICML3D ConvNets 的优化规划
本研究旨在自动化三维卷积神经网络的训练过程,提出一种划分训练状态,并在每个状态中指定超参数,通过拟合性能 - 时代曲线来触发状态转换的优化路径。同时,结合设计双头分类器的新型三维卷积神经网络,在多个公共视频识别基准测试中实现优于目前最先进技 - ICML通过随机化扩展结构化推理能力
介绍了一种基于随机动态规划算法(RDP)的框架,可将计算状态扩展到成千上万个潜在状态,同时保持较低的偏差和方差,并且适用于多种不同的图结构和自动微分;同时,利用 RDP 训练结构化变分自编码器并在推理网络上扩展,获得了比基线更好的测试似然性 - 连续学习中泛化与遗忘的权衡形式化
通过动态规划的方法建立连续学习问题的模型,将忘记与泛化之间的权衡建模为一个双方顺序博弈,提出了平衡连续学习 (BCL) 算法,使得忘记和泛化之间达到度的平衡,实验证明 BCL 与最先进技术相比表现良好。
- ACL基于中心词词组结构的工程化句法分析
我们提出了一种新的基于 headed spans 的投影依存解析方法。我们将从每个单词开始的最大子树表示为一组 headed spans,将一个依存树的得分分解为所有 headed spans 的得分, 并设计了一个新颖的 O (n3) 动 - 不确定情况下的序列决策中的反事实解释
本文提出了一种基于马尔可夫决策过程和 Gumbel-Max 结构因果模型的动态规划算法寻找决策过程中的反事实解释来优化决策,并在认知行为治疗的合成和真实数据上进行了验证。
- ICML连续动作、状态和时间下的价值迭代
本论文提出了一种名为 cFVI 的算法,能够有效地将动态规划应用于连续状态和动作的控制环境中;在非线性控制实验中,cFVI 的策略表现与强化学习方法的表现相当,但在应用到物理系统时更具鲁棒性且无需显式地融入鲁棒性优化。