强化学习中的时间协调探索的生成规划
这篇论文介绍了一种名为《生成概率规划》的新型生成式人工智能技术,利用基于注意力的图神经网络、离线深度强化学习和策略模拟方法,通过概率仿真生成动态供应行动计划,实现了全局优化,适用于不同变化目标的供应链网络中的动态规划,为企业的绩效和盈利能力带来了显著提高。
Apr, 2024
本研究提出了 PlanGAN,一种使用模型的算法,专门针对具有稀疏奖励环境的多目标任务进行求解,该算法比最成功的基于无模型 RL 算法的方法在提高 4-8 倍的样本效率下达到可比较的表现。
Jun, 2020
本文提出了一种新的基于模型的强化学习方法,使用背景规划来混合(近似)动态规划和无模型更新,以解决学习模型的不准确性和生成无效状态的问题,并通过约束背景规划到一组(抽象的)子目标和只学习局部的、以子目标为条件的模型来提高计算效率,自然地包含时间抽象以实现更快的长期规划,并完全避免学习转换动力学,展示了该方法在不同领域中可以帮助各种基础学习者更快地学习。
Jun, 2024
本文提出了一种名为 Planning to Practice(PTP)的方法,旨在解决普适性机器人面临的目标达成困难和训练代价高的问题,通过分解目标化问题和离线增强学习与在线探索相结合的方法,实现对复杂任务的有效训练和解决。
May, 2022
在这篇研究中,我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题,该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态,我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。
Jun, 2022
本文提出了一种新型的基于模型的强化学习方法,利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的,该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。
Apr, 2018
本文提出一种算法,用于通过学习特征、抽象和广义计划来解决连续机器人任务和运动规划中的困难问题。研究表明,仅使用少量示例学习的简单广义计划可以用于优化 TAMP 求解器的搜索效率。
Sep, 2021
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022
本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域,并提出将单个随机操作选择替换为随机目标选择,该方法与任何基于好奇心的探索和脱机强化学习代理兼容,并生成比单个随机操作更长且更安全的轨迹。
Jul, 2018
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019