部分可观测环境下自主智能体复杂任务的无模型运动规划

Apr, 2023

部分可观测环境下自主智能体复杂任务的无模型运动规划

Model-free Motion Planning of Autonomous Agents for Complex Tasks in Partially Observable Environments

Junchao Li, Mingyu Cai, Zhen Kan, Shaoping Xiao

TL;DR该研究使用无模型强化学习方法解决了部分已知环境下自主智能体的运动规划问题，提出了一种基于线性时态逻辑和 Markov 决策过程的方法，并应用于无人机的实际控制中。

Abstract

motion planning of autonomous agents in partially known environments with incomplete information is a challenging problem, particularly for complex tasks. This paper proposes a model-free →

motion planning autonomous agents reinforcement learning linear temporal logic markov decision process

发现论文，激发创造

在具有挑战性的环境中，将神经网络和树搜索结合用于任务和动作规划

利用深度神经网络和强化学习技术，结合蒙特卡罗方法和分层控制策略，解决了复杂动态环境下行车规划的问题，提出了一种用于道路自动驾驶的方案。该方案使用 LTL 约束条件和控制策略，训练神经网络，在规避交通事故、遵守交通规则的前提下，行驶到指定的终点。

Mar, 2017

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

基于记忆的深度强化学习在 POMDPs 中的应用

本文介绍了一种基于 LSTM-TD3 的方法，该方法引入了记忆组件以应对部分可观察 MDPs，相比其他 DRL 算法，在具有部分可观察 MDPs 的情况下，该方法具有显著的优势，包括处理丢失和噪声观察数据的能力。

Feb, 2021

部分可观察机器人任务的大型语言模型交互规划

使用大型语言模型（LLMs）的互动规划技术，通过机器人收集环境中缺失的信息并推断底层问题的状态，从而指导机器人执行所需的动作。

Dec, 2023

面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络，我们提出了一种新颖的深度强化学习（DRL）算法，其样本效率得以提高，能够更快速地学习控制策略，以在未知环境中的机器人导航任务中提高效率。

Nov, 2023

逻辑约束强化学习

本篇研究提出了第一种基于无模型的强化学习算法，用于综合一个未知的马尔可夫决策过程，并满足线性时间性质的要求。我们还展示了这个算法的性能通过一组数值实例进行了评估，并发现所提出的算法相比现有方法在合成所需的迭代次数方面有一个数量级的改进。

Jan, 2018

不确定环境下带概率满足保证的 LTL 控制

本文提出了一种使用线性时态逻辑公式生成机器人控制策略的方法，重点考虑了噪声传感器和执行器带来的影响，将其转换为马尔可夫决策过程来解决，包括案例分析。

Apr, 2011

强化学习用于具有概率满足保证的时间逻辑控制合成

本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成满足概率的最大值。

Sep, 2019

连续随机动力学学习环境模型

通过深度强化学习、自动化学习和马尔可夫决策过程等技术，学习出由自主智能体控制的环境模型，以解决复杂环境下的控制问题，并在多个强化学习基准环境中验证了方法的有效性。

Jun, 2023

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023