部分可观测环境下自主智能体复杂任务的无模型运动规划
利用深度神经网络和强化学习技术,结合蒙特卡罗方法和分层控制策略,解决了复杂动态环境下行车规划的问题,提出了一种用于道路自动驾驶的方案。该方案使用 LTL 约束条件和控制策略,训练神经网络,在规避交通事故、遵守交通规则的前提下,行驶到指定的终点。
Mar, 2017
本研究提出一种基于强化学习的模型自由优化方法来学习行为策略,以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制,在各种 MDP 环境中进行实验,证明了其具有改进的样本效率和最优策略收敛性。
May, 2023
本文介绍了一种基于 LSTM-TD3 的方法,该方法引入了记忆组件以应对部分可观察 MDPs,相比其他 DRL 算法,在具有部分可观察 MDPs 的情况下,该方法具有显著的优势,包括处理丢失和噪声观察数据的能力。
Feb, 2021
通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络,我们提出了一种新颖的深度强化学习(DRL)算法,其样本效率得以提高,能够更快速地学习控制策略,以在未知环境中的机器人导航任务中提高效率。
Nov, 2023
本篇研究提出了第一种基于无模型的强化学习算法,用于综合一个未知的马尔可夫决策过程,并满足线性时间性质的要求。我们还展示了这个算法的性能通过一组数值实例进行了评估,并发现所提出的算法相比现有方法在合成所需的迭代次数方面有一个数量级的改进。
Jan, 2018
本文提出了一种使用线性时态逻辑公式生成机器人控制策略的方法,重点考虑了噪声传感器和执行器带来的影响,将其转换为马尔可夫决策过程来解决,包括案例分析。
Apr, 2011
本研究提出一种基于强化学习的控制策略综合算法,用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机,再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练,从而生成满足概率的最大值。
Sep, 2019
通过深度强化学习、自动化学习和马尔可夫决策过程等技术,学习出由自主智能体控制的环境模型,以解决复杂环境下的控制问题,并在多个强化学习基准环境中验证了方法的有效性。
Jun, 2023
本文提出一个结合推断和强化学习的框架,通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数,并将参数分布通过域随机化融入到模型不确定性的解决中,解决该方法适用于铁路资产维护规划等实际问题。
Jul, 2023