- 基于改进的 A * 算法的自动停车规划控制方法
本文提出了基于 A * 算法的改进自动停车规划算法,并使用模型预测控制 (MPC) 作为自动停车的控制模块,通过优化启发函数、二叉堆优化和双向搜索来增强规划的实时性,通过动态加载障碍物和引入车辆自身体积来计算狭窄区域的通行能力,在满足停车任 - ToolChain*: 大规模语言模型中基于 A * 搜索的高效动作空间导航
大型语言模型(LLMs)基于高效的树搜索规划算法 ToolChain*,通过在决策树中优化行动空间导航来提高解决问题和规划能力,并在多个任务上超过了现有方法的性能。
- 主动推断中的高效计算
该论文提出了一种新的规划算法,通过动态规划算法实现了计算效率的大幅提升,并且简化了目标分布的制定,同时在不确定的条件下获得了准确的模型学习和规划。
- 具数据关联意识的 POMDP 规划及假设修剪性能保证
针对部分可观测的马尔科夫决策过程,该论文提出了一种基于置信混合的规划算法来解决完全观测数据联合假设的限制,同时引入一种基于修剪的方法来解决数据联接不确定性,以在计算效率和性能之间建立折衷。
- ICLR强化学习的潜在变量表示
本文提出了一种基于深度潜变量模型的策略学习框架,在理论上和实践中检验了潜变量模型在优化强化学习中发挥的作用,同时提出了一种计算高效的规划算法,并在多个基准测试中证明了其优越性能。
- 在 q^π 可实现的 MDPs 中进行自信近似策略迭代,以实现高效的本地规划
论文提出了一种新的拟动态规划算法 Confident Approximate Policy Iteration (CAPI),并将其应用于以局部模拟器为基础的规划问题中,该算法通过一系列策略来获得越来越精确的结果,在最小代价(内存和计算代价 - 通过人类规范化强化学习和规划掌握非宣传外交游戏
通过引入规划算法 DiL-piKL,将以人类学习策略为导向的策略规则化,弥补了仅靠自我对弈训练出的强化学习算法在协作游戏中的不足。通过 RL-DiL-piKL,训练出一名名为 Diplodocus 的与人类玩家进行博弈的 AI 代理,其在 - KDD基于动作集的安全电网管理策略优化
本文提出了一种基于搜索规划算法的新方法解决强化学习中存在的环境约束问题,同时采用黑盒策略优化的进化策略来训练策略直接优化。在 NeurIPS L2RPN 竞赛中,我们的解决方案在两个轨道中均名列第一,能够有效管理电网并确保其地安全性。
- 离线强化学习问题的序列建模方法
本文介绍了如何使用序列建模来解决强化学习问题,使用 Transformer 架构来建模轨迹上的分布,并改造了波束搜索作为规划算法,在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性,同时将该方法 - AAAI临时团队合作中的规划通信期望值
论文提出的新度量方法 EDP 和规划算法可解决 “即兴团队合作” 中出现的困难,其中队员可在特定费用下相互通信但必须平衡基于观察还是基于通信的计划识别。
- 批量通知树(BIT *):通过启发式引导搜索隐式随机几何图的采样最优规划
本文提出一种基于图形和采样基规划技术的易于操作的 Batch Informed Trees(BIT*)规划算法,展示了 BIT * 在模拟的随机环境和 CMU HERB 机器人的操作问题上的实用性,并证明了其概率上完备和渐近最优。
- 启发式搜索值迭代用于 POMDPs
本文提出了一种名为启发式搜索值迭代 (HSVI) 的新型 POMDP 规划算法,采用注意力集中搜索启发式和分段线性凸表示值函数的技术相结合,可在保证收敛与正确性的情况下提高计算速度,并在大规模问题上运用效果良好。