本文研究了如何使用有限的传感能力控制一组合作智能体,使用了基于演员 - 评论家算法的深度强化学习以近似 Q 值函数和策略评估,评估了在寻找和维持距离和定位目标方面的性能。
Sep, 2017
本文探讨了应用深度强化学习(Deep reinforcement learning, DRL)到机器人群体控制中的挑战,并提出了一种基于部分可观察马尔科夫决策过程(Partially Observable Markov Decision Process, POMDP)的解决方案,通过比较几个深度强化学习算法的表现,证明了全局状态预测(Global State Prediction, GSP)可以提高性能和鲁棒性。
Jun, 2023
本文提出了一种基于均场控制的智能机器人群体行为设计框架,结合碰撞避免和均场控制学习,通过单智能体分布控制实现多智能体分布控制,实现分布式开环应用并避免碰撞,并在理论和实践上对其进行了有效性验证。
Sep, 2022
本文提出了一种基于 SwarMDP 框架的针对分布式多智能体相互作用的逆向强化学习算法,在该框架中,我们证明了与智能体相关的值函数相等,通过引入一种新异构学习策略,我们证明了该框架能够有效地产生有意义的本地奖励模型。
Feb, 2016
本文提出了一种强化学习 (RL) 框架,用于控制一大规模群体的密度以对抗敌对群体攻击。通过将群体对抗问题建模为马尔科夫决策过程并开发出 RL 算法,可在不了解敌对群体策略 / 动态的情况下计算出对抗策略,模拟结果表明,所开发的框架可以以高效的方式处理各种大规模对抗场景。
Oct, 2022
本文提出一种自监督表示学习方法,通过正向预测目标同时学习环境状态和动作序列的嵌入表示,以提高强化学习的采样效率和策略学习性能。研究表明,使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时,结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下,快速、高效地学习高质量的基于目标条件的连续控制策略。
Aug, 2019
基于强化学习算法的分布式多机器人编队控制,并采用 DDQN 算法,通过离散机器人运动来适应连续非线性系统,无需复杂数学模型和非线性控制器即可在模拟和实验中实现稳定编队。
本文研究了一种深度学习方法,将强化学习和监督学习结合,通过长短时记忆网络对隐藏状态的表示进行学习,在部分可观测任务中表现出了很好的性能。
Sep, 2015
本文提出了一种基于群体智能的全局优化器设计方法,将其问题形式化为强化学习问题,测试结果表明该方法在各种基准优化函数上的表现优于其他全局优化策略,并且具有良好的普适性,可用于快速开发特定领域的优化器。
Mar, 2023
此篇论文介绍了多智能体深度强化学习的不同方法,包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习,并分析和讨论了这些方法的优缺点及其相关应用,旨在促进更加健壮和高效的多智能体学习方法的发展。
Dec, 2018