基于扩散的强化学习的依赖感知CAV任务调度
本文旨在设计一种任务调度策略,以最小化所有任务的离线和计算延迟,同时满足无人机能源容量约束下的延迟导向物联网服务需求,并考虑到任务到达动态变化的情况,提出了基于风险敏感的强化学习算法来解决能耗风险约束下的决策问题。
Oct, 2020
使用深度强化学习方法,将自主运动控制问题建模成马尔科夫决策过程,并通过异步课程经验回放算法以及课程学习的训练范式,在动态三维环境中训练并改进了无人机控制策略,结果表明,该算法在速度和精度上均优于现有算法,且在不同环境下都表现出较强的鲁棒性和泛化能力。
Jul, 2022
本文提出了一种Digital Twin辅助的RL任务调度方法,在探索效率上通过DT显著提高RL的收敛速度,使用DT模拟智能体做出的不同决策,从而实现探索多种行动并行交互的效果,提高了更快的数据分析能力和收敛效果。
Aug, 2022
使用混合模型驱动的继任特征算法和不确定性感知探索的方法,能够在具有不同转换动力学或/和奖励函数的任务之间实现高效的知识传输,并且在决策时间上所需的计算量较少。通过与最近的继任特征算法和模型驱动方法进行对比,结果表明我们的算法能够在不同的转换动力学中泛化知识,使用明显更少的样本学习下游任务,并且优于现有方法。
Oct, 2023
本文提出了一种基于动态无人机辅助的车辆双生物迁移框架,使用空地一体化网络中的无人机作为辅助服务器,以平衡 RSU 的负载并提高双生物迁移质量。模拟结果表明,与其他基准方案相比,基于扩散式强化学习算法和无人机辅助的方法效果更好。
Jun, 2024
人工智能和深度神经网络在车辆网络生态系统中的快速发展引入了计算密集型任务,对单个车辆的计算资源需求超过其能力,为解决这一挑战,车辆边缘计算作为一个解决方案应运而生,通过车辆间/基础设施之间的通信资源池提供深度神经网络任务的计算服务,本文将VEC中的DNN划分、任务卸载和资源分配问题建模为动态长期优化问题,目标是在时间上保证系统稳定的同时尽量减少DNN任务的完成时间,首先利用Lyapunov优化技术将原始的长期优化问题与稳定约束解耦成每个时隙的确定性问题,然后提出了一种基于Multi-Agent Diffusion-based Deep Reinforcement Learning (MAD2RL)算法,通过创新性地使用扩散模型来确定最优的DNN划分和任务卸载决策,在MAD2RL中还将凸优化技术作为子程序加以整合来分配计算资源,提高学习效率,通过对真实世界车辆移动轨迹的模拟,我们证明了我们所提出的算法相对于现有的基准解决方案具有更优越的性能。
Jun, 2024
城市空中出行(UAM)的广泛采用和经济可行性在一定程度上取决于在UAM网络中如何对飞机机队进行最优调度,其中不确定性包括空域拥塞、变化的天气条件和不同的需求。本文提出了飞机机队调度问题的全面优化形式,同时也指出需要替代的解决方案,因为直接解决生成的非线性整数规划问题在每日机队调度中在计算上是禁止的。先前的研究表明使用(图形)强化学习(RL)方法来训练实时可执行的机队调度策略模型是有效的。然而,这种策略在分布场景或边缘情况下通常是脆弱的。此外,随着问题复杂性(例如约束数量)的增加,训练性能也会下降。为了解决这些问题,本文提出了一种模仿学习方法,其中基于RL的策略利用通过遗传算法解决确切优化问题而产生的专家演示。该策略模型包括基于图神经网络(GNN)的编码器,将垂直港口和飞机嵌入空间,变压器网络对需求、乘客票价和运输成本进行编码,以及基于多头注意力(MHA)的解码器。通过生成对抗性模仿学习(GAIL)算法使用专家演示。与涉及8个垂直港口和40架飞机的UAM模拟环境交互,以日利润奖励为指标,新的模仿方法在平均性能和未知最坏情况场景的显着改进方面优于纯RL结果。
Jul, 2024
本研究解决了多无人机协作追逃游戏中自主决策能力不足的问题,提出了一种基于深度强化学习的模型,以应对复杂游戏环境中的决策挑战。通过引入多环境异步双深度Q网络及优先体验重放算法,显著提高了训练效率,实验结果表明该方法显著提升了无人机的自主决策能力和协作效率。
Nov, 2024
该研究解决了无人机在复杂和不确定环境中处理深度神经网络任务时面临的计算资源不足问题。通过结合多智能体强化学习和生成扩散模型,提出了一种新的任务分配算法GDM-MADDPG,显著优化了无人机的飞行路径和系统成本。模拟结果表明,该算法在路径规划、信息时效性、能耗和任务负载平衡方面优于基准方案。
Nov, 2024