online planning | BriefGPT - AI 论文速递

关键词online planning

搜索结果 - 16

基于图学习的城市空中移动车队调度：面向运营约束、需求变动和不确定性
本文提出了一种基于图强化学习的方法，用于在线规划多个垂降站之间的电动飞机航班和目的地。训练数据表明，这种方法在性能和效率方面表现优秀。
PDF6 months ago
众多智能体 POMDP 中的分解式在线规划
在集中式多智能体系统中，使用多智能体部分可观察马尔可夫决策过程（MPOMDPs）进行建模，其中动作和观察空间随着智能体数量呈指数增长，使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法，同时解
PDF7 months ago
多智能体强化学习下的动态避障无人机路径规划
我们提出了一种基于多智能体强化学习的新颖集中训练与分散执行方法，用于在线解决动态避障问题。改进方法采用模型预测控制的思想提高智能体的训练效率和样本利用率，并通过模拟、室内和室外环境的实验结果验证了方法的有效性。
PDF8 months ago
实时网络级交通信号控制：一种显式的多智能体协调方法
本研究提出了一种基于多智能体协作的在线规划方法，旨在实现适应性、实时和网络级交通信号控制（TSC），并证明这种方法能够有效提高交通流量的控制和性能。
PDFa year ago
BetaZero: 使用学习逼近的置信状态规划长时程 POMDPs
介绍一种基于准确置信模型的 BetaZero 算法，该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策，解决了部分可观测领域的挑战，并在地质勘探等现实任务中表现出色。
PDFa year ago
PDSketch：一体化的计划域编程与学习
本文研究了一种模型学习和在线规划方法，目的是构建灵活、通用的机器人。具体而言，我们研究如何利用底层环境转换模型中的局部性和稀疏性结构，以提高模型泛化能力、数据效率和运行效率。我们提出了一种新的领域定义语言 PDSketch，允许用户灵活定义
PDFa year ago
ICLR连续蒙特卡罗图搜索
本文提出了 Continuous Monte Carlo Graph Search（CMCGS），一种将 Monte Carlo Tree Search（MCTS）扩展到连续状态和动作空间的在线规划方法，并在 DeepMind Contro
PDF2 years ago
基于线性实现最优值函数的 MDP 计划的张量计划及少动作下限
本研究考虑了在线规划中基于生成模型的固定时标马尔可夫决策过程（MDP）中的极小化查询复杂度，特别关注线性函数逼近的情况，并基于先前的研究，都采用了广泛的问题类别，提出了 TensorPlan，可在动作数量固定的情况下实现所有相关数量的多项式
PDF3 years ago
深度动态模型用于学习灵巧操作
本文介绍了一种在线规划深度动力学模型的方法，通过这种方法，使用少量真实世界的数据即可进行柔性接触的灵巧操作技能的有效学习，并成功应用于 24 个自由度类人手上。
PDF5 years ago
基于模型的规划与策略网络的探索
该研究提出了一种新的基于模型的策略规划（POPLIN）算法，将策略网络与在线规划相结合，通过神经网络在每个时间步骤中优化动作规划，并通过 MuJoCo 基准环境验证其取得了业界领先的性能表现。
PDF5 years ago
规划形状对高维状态空间中 Dyna-style 规划的影响
本论文研究了 Dyna（一种基于模型的强化学习）在多个游戏中的应用，发现规划的形式对 Dyna 的有效性有深刻影响，同时也是第一次成功地使用了手头有限的学习动态模型进行规划，该研究表明 Dyna 是解决高维度问题中的模型泛化能力问题的一种可
PDF6 years ago
解耦动态与奖励的迁移学习
本文提出了一种分离式学习策略，通过创造共享的表示空间来保证知识可以稳健地转移，分离学习任务表示，前向动力学，反向动力学和领域奖励函数，并表明这种分离可以提高任务内的性能并有效用于在线计划，在连续和离散 RL 领域中表现良好。
PDF6 years ago
DESPOT: 在线 POMDP 规划与正则化
该研究提出了一种利用确定性稀疏部分可观察树 (DESPOT) 算法进行在线不确定性规划的方法，其通过随机采样场景来紧凑地捕获所有策略的执行，得到的最佳策略接近最优，并具有一定的遗憾，该算法已成功应用于实时汽车控制。
PDF8 years ago
IJCAI不确定环境下的规划元推理
提出了一种基于 metareasoning 的在线规划模型，用于解决实际场景下规划时间成本与策略改进的平衡问题，并通过引入 BRTDP 规划算法的特殊性质，提出了近似的元推理过程。
PDF9 years ago
用于马尔可夫决策过程在线规划的简单遗憾优化
本针对 MDPs 中的在线规划问题，提出一种基于 MCTS2e 的新型蒙特卡罗树搜索算法 BRUE，其能够以指数速度降低简单遗憾和错误概率，并配合遗忘学习进行推广。结果表明，BRUE 不仅提供了优越的性能保证，而且在实践中也非常有效。
PDF12 years ago
大型结构化领域中的基于模型的贝叶斯强化学习
本文提出一种基于模型的 Bayesian 强化学习框架，采用因式表示和在线规划技术来提高可扩展性，结合学习动态系统结构和参数，同时制定（近）最优动作序列。
PDF12 years ago