本文利用专家示范解决关于建模长时间轨迹的问题,通过提出一种层次化神经网络结构,能够在高维状态空间中,自动识别长短期目标,进而实现不同于传统方法由单一策略为核心,解决了传统方法在涉及长期行为建模上的局限。作者以模拟篮球运动轨迹的案例为例,通过专业体育分析师的判断得出,相较传统基准方法,作者提出的层次化策略能够生成更为真实的轨迹。
Jun, 2017
为了实现先验未知的真实世界场景下的自治,我们介绍了一种称为 PALMER 的通用规划算法,将经典基于采样的规划算法与基于学习的感知表示相结合,从而获得更健壮、更高效的长视距规划。
Dec, 2022
本文介绍了一种基于目标状态和价值函数的探索策略,可以有效解决高层次策略的行动空间过大和低级别策略的动态变化导致高层次政策的不稳定性问题。
Jun, 2023
我们提出了一种元路径规划算法,名为神经探索利用树(NEXT),用于从先前经验中学习以解决高维连续状态和动作空间中的新路径规划问题。与 RRT 等更经典的基于采样的方法相比,我们的方法在高维度中实现了更好的样本效率,并且可以从规划类似环境的先前经验中受益。具体而言,NEXT 利用一种新颖的神经结构,可以从问题结构中学习有希望的搜索方向。然后将学习到的先验知识集成到一种 UCB 类型的算法中,以在线实现在解决新问题时探索与开发之间的平衡。我们进行了详尽的实验,表明 NEXT 可以实现更简洁的搜索树来解决新的规划问题,并且在几个基准测试中显着优于现有方法。
Feb, 2019
通过结合状态空间搜索和基于自然语言模型的查询,我们提出了一种混合代理方法 neoplanner,以最大化状态值的上界来平衡探索和开发,并通过查询自然语言模型以生成行动计划,进一步提高了大规模状态空间和行动空间的顺序规划的性能。
Dec, 2023
提出了 Program Machine Policies (POMPs),它集成了程序化强化学习和状态机策略的优势,能够表示复杂行为并解决长期任务。通过检索一组有效、多样、兼容的程序,并将其用作状态机的模式,学习过渡函数以在模式程序之间进行转换,从而捕捉长期重复行为,并在各种任务上优于程序化强化学习和深度强化学习基线模型。
Nov, 2023
利用深度神经网络和强化学习技术,结合蒙特卡罗方法和分层控制策略,解决了复杂动态环境下行车规划的问题,提出了一种用于道路自动驾驶的方案。该方案使用 LTL 约束条件和控制策略,训练神经网络,在规避交通事故、遵守交通规则的前提下,行驶到指定的终点。
Mar, 2017
我们介绍了一种结合规划算法和强化学习的通用控制算法,称为搜索回放缓冲(SoRB),可以自动生成子目标序列并解决高维度的长期任务。
Jun, 2019
本文提出了一种探索方法,将先前学习的基本技能及其动态与前瞻性搜索相结合,用于操作策略的强化学习,并且表明该方法比当前最先进的 RL 方法更快地学习到复杂操作策略,并获得更好的策略收敛结果。
Nov, 2018
应用强化学习模式下,通过数据驱动方法生成抽象状态,计算有效的选项和高级实现路径,从而获得可执行和可解决性的强大保证。
Sep, 2022