- 通过协调提升和动态规划解决多模型马尔可夫决策过程
该研究主要关注多模型马尔可夫决策过程 (MMDP) 和 CADP 策略梯度的推导与分析,提供了一种采用坐标上升方法和动态规划算法相结合的 CADP 解决 MMDP 的创新方法,并通过实验结果表明 CADP 在解决若干基准问题时明显优于现有方 - 通过策略优化缩小对抗性和随机 MDP 之间的差距
通过使用 APO-MVP 算法和基于动态规划和黑盒在线线性优化策略的策略优化,本文在对手强 Markov 决策过程中提出了一个新的追悔边界概念,并且通过估计优势函数以避免典型的占有度量工具,实现了对状态和动作空间大小的优化,使得算法易于实现 - ACL重新调谐:通过递归调谐克服大型语言模型的组合性限制
通过 Re-Tuning 方法,我们提出了一种新的大规模语言模型解决组合性任务的方法,该方法在整数相加、动态规划和奇偶数等代表性组合性任务中显著提高了模型性能,并且具有更高的准确性和 GPU 内存效率。
- 基于深度 Galerkin 反馈法的智能体动力学最优控制
通过采用基于漂移放松的采样方法,本文研究了 Deep Galerkin 方法所面临的采样问题,通过验证 Sznajd 和 Hegselmann-Krause 模型中的意见动态变化的多场控制问题,得出的策略在手动优化控制函数上实现了显著成本降 - 似曾相识度量是最优传输距离,并且可以高效计算
我们提出了一种新的框架,用于在马尔科夫链之间制定最佳输运距离的形式化。我们将此问题转化为在约化空间中求解线性规划的问题,并且通过 Sinkhorn Value Iteration 方法计算最佳输运距离,从而得到与马尔科夫链的 bisimul - 分支:用于优化决策树的快速动态规划和分支限界算法
Branches 算法结合了动态规划和分支界限方法,提供了出色的速度和稀疏性解决方案,通过理论分析和实证评估验证了比现有方法更低复杂性以及始终产生最优的决策树的优势。
- 基于动态规划的模型预测控制和强化学习的统一框架
本文描述了一个将近似动态规划 (DP)、模型预测控制 (MPC) 和强化学习 (RL) 连接起来的新概念框架,其中通过牛顿法的强大机制,离线训练和在线应用算法相互独立地设计,协同运作。这一理论架构为强化学习和模型预测控制之间的文化差距提供了 - 人类洞察与人工智能精确度的协调:共同推进知识图任务
通过人工智能与人类的合作,我们设计了一个名为 KG-HAIT 的系统,利用人类对知识图谱的洞察力来改进知识图谱嵌入模型,通过动态规划生成捕捉子图结构特征和语义相似性的人类洞察特征向量,并将其整合到知识图谱嵌入模型的训练中,取得了显著的性能提 - 领域无关动态规划
基于动态规划 (DP) 的领域无关动态规划 (DIDP) 模型具有优于其他方法的性能,通过引入七种 DIDP 求解器和对 11 种组合优化问题类别的基准测试,实验证明 DIDP 在大部分问题类别中优于混合整数规划 (MIP) 和约束规划 ( - AAAI最佳生存树:一种动态规划方法
基于历史数据,Survival Analysis 和 Survival Trees 使用动态规划提供了具有最优性保证的方法,发现复杂的非线性关系,并在实验中表现出良好的时间和性能。
- 基于均值嵌入的分布式贝尔曼算子
我们提出了一个新颖的算法框架来进行分布式强化学习,基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法,提供了渐近收敛理论,并对算法在一套表格任务上的实证性能进行了研究。此外,我们展示了这种方法可以与深 - 用信息解释来描述语言模型解码中的权衡特征
我们提出了一个理论框架,用于利用动态规划和信息论来构建语言模型解码器算法。通过动态规划,我们将解码器算法的设计从逻辑空间提升到动作 - 状态值函数空间,并展示解码算法是优化动作 - 状态值函数的结果。动作 - 状态值函数空间的每个组件都具有 - 马尔可夫决策过程中的超越平均回报
马尔可夫决策过程中,奖励的功能有哪些可以精确计算和优化?我们总结了策略评估相关类的特性,给出了规划问题的新解答。同时,我们证明了只有广义平均数能够被精确优化,即使在分布式强化学习的更通用框架下也是如此。这些结果为推进马尔可夫决策过程的理论发 - 最大独立集:动态规划自学习
本文提出了一种基于动态规划的图神经网络(GNN)框架来解决最大独立集(MIS)问题,通过递归算法构建子图并预测具有较大 MIS 的子图,进而在下一个递归调用中使用。我们通过对不同图形之间的 MIS 大小进行注释比较来训练算法,注释比较的输出 - 超越稳态:随机 Softmax 策略梯度方法的收敛分析
这篇论文介绍了一种结合动态规划和策略梯度的方法,称为动态策略梯度,其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析,我们发现动态策略梯度训练更好地利用了有限时间问题的结构,这反映在改进的收敛界限上。
- ACT:通过优势调节实现决策变换的动态规划赋能
使用决策转换器(DT)和动态规划相结合的方法(ACT),克服了动态规划的弱点,通过有效的轨迹拼接和鲁棒的动作生成,在环境随机性方面表现出色,优于各种基准方法。
- 重复多单位按竞标付费拍卖中的学习
通过离线动态规划方案,设计了在线学习算法以解决多次多单位逐标付款拍卖中的出价问题,并获得关于遗憾上界的结果,研究表明这种拍卖方式产生更高的收入。
- 离线强化学习的预算对比实验
本文提出了一种采用动态规划和固定点求解的方法,用以控制训练中的数据采样分布并改善数据利用效率,在 D4RL 数据集上表现优于其他已有方法的离线强化学习培训方式。
- 动作 - 状态依赖的动态模型选择
The paper introduces a reinforcement learning-based method for model selection in the presence of changing circumstances - 自主海洋养殖中最大化海藻生长的动态规划方法:应对不确定海洋洋流的未操纵系统导航
利用动态规划优化控制来利用海流控制海藻生长,可实现在真实世界条件下通过低功率推进和优化控制实现漂浮海藻场的增强生长。