提出了一种名为 DC-MCTS 的计划算法,用于解决目标导向的强化学习问题,该算法通过给出中间子目标来逐步划分初始任务,并独立递归地解决更简单的任务,从而实现改进策略, 使规划顺序具有灵活性,得到了在格子世界和各种连续控制环境中的强大表现。
Apr, 2020
本文介绍了一种新型的算法 —— 快速探索随机图(RRG)及其树形版本 RRT $ ^ * $ 算法,并证明这两个算法都可以在几乎确定地收敛到最优解。此外,文章还建立起采样运动规划算法和随机几何图理论之间的新联系,以证明所提出算法的复杂度与传统 RRT 算法相比是等价的。
May, 2010
该研究提出了一种基于树形结构策略的渐进式强化学习框架,通过迭代的划分过程,将语义概念明确地表示为策略中的分支,实现对未加工视频中的时间语言定位,并取得可观的实验结果。
Jan, 2020
引入一种新的搜索框架来解决规划问题,该框架能够在解决特定规划问题时在几种前向搜索方法之间交替使用,使用可训练的随机策略来选择搜索方法,进而优化搜索策略,实验结果表明该框架优于传统的最佳优先搜索和均匀策略方法。
Oct, 2018
本研究提出了一种将现代投资组合理论(MPT)与强化学习相结合、针对离线数据训练进行风险管理的算法,通过集成 MPT, 该算法能够更好地解决离线强化学习中存在的不确定性问题,并在使用 Transformer 结构的情况下达到最优解。
Nov, 2022
本文提出了一种名为 Planning to Practice(PTP)的方法,旨在解决普适性机器人面临的目标达成困难和训练代价高的问题,通过分解目标化问题和离线增强学习与在线探索相结合的方法,实现对复杂任务的有效训练和解决。
May, 2022
提出了一种基于动态规划方程的强化学习框架,能够自然地解决多目标查询问题,并使用子目标树结构构建轨迹,从而扩展策略梯度法来预测子目标,应用于神经运动规划领域,与标准强化学习相比,取得了显著的改进。
Feb, 2020
提出 GDP-Zero,该方法使用 Open-Loop MCTS 进行目标导向的对话策略规划,不需要进行任何模型训练,其响应在交互式评估中被认为是 ChatGPT 的 59.32%,而在说服力方面更有优势。
May, 2023
该研究通过合理连接基于 MCTS 的两种不同种类算法来实现在短时间内寻求合理 good action,同时保持 BRUE 算法的优秀的收敛性能和指数级性能提高的保障。
Sep, 2013
基于深度强化学习的旅行购货问题(TPP)解决方案,通过使用双向图表示 TPP、策略网络逐步构建路线,并通过线性规划获取购货计划,利用元学习策略稳定训练策略网络。在综合合成和标准基准测试上,相较于已有启发式算法,我们的 DRL 方法能够显著提升解决方案质量(降低 40%-90% 的最优性差距),尤其在大型实例上具备高效性。
Apr, 2024