多时间尺度控制和通信与深度强化学习 -- 第一部分：通信感知车辆控制

Nov, 2023

多时间尺度控制和通信与深度强化学习 -- 第一部分：通信感知车辆控制

Multi-Timescale Control and Communications with Deep Reinforcement Learning -- Part I: Communication-Aware Vehicle Control

PDF

Tong Liu, Lei Lei, Kan Zheng, Xuemin, Shen

TL;DR一种基于深度强化学习的多时间尺度控制和通信的联合优化框架被提出，以车队控制（PC）为示例应用。为了改善 PC 在随机观察延迟下的性能，采用了细粒度嵌入式模拟 C-V2X 通信生成的延迟环境进行训练，并与基线 DRL 算法的性能进行比较。

Abstract

An intelligent decision-making system enabled by vehicle-to-everything (V2X) communications is essential to achieve safe and efficient autonomous driving (AD), where two types of decisions have to be made at diff

autonomous driving vehicle-to-everything deep reinforcement learning platoon control communication-aware control

发现论文，激发创造

深度强化学习的多时间尺度控制和通信 - 第二部分：控制感知的无线资源分配

我们将多时间尺度控制和通信 (MTCC) 问题分解为基于深度强化学习 (DRL) 的车队控制 (PC) 子问题和基于 DRL 的无线资源分配 (RRA) 子问题，并提出了用于学习最优 PC 策略的 MTCC-PC 算法和用于学习 RRA 策略的 MTCC-RRA 算法。我们采用奖励塑形和奖励反向传播优先经验回放 (RBPER) 技巧来高效地解决多智能体和稀疏奖励问题，并提出了一种样本和计算高效的训练方法来共同学习 PC 和 RRA 策略。通过使用真实驾驶数据进行实验，将 MTCC 的性能与基准 DRL 算法进行了比较，验证了所提出的 MTCC 算法的有效性。

Nov, 2023

基于 V2X 信息的深度强化学习协同控制

探究基于深度强化学习 (DRL) 的车队控制器的 V2X 通信价值，并研究信息拓扑下的最优决策问题 (SSDP)，通过条件 KL 散度计算信息的重要性并在模拟实验中进行了验证。

Mar, 2022

强化学习在车载系统中的统一自动控制

本文提出了一种简化的车辆微观模拟方法，并使用深度强化学习优化了具有不同车辆组成的六个交通系统的控制策略，发现了类似于波浪消减、交通信号和匝道计量等的多种新行为，并分析了这些行为以获得可解释的控制策略。

Jul, 2022

基于深度强化学习的蜂窝 V2X 通信模式选择和资源分配

本文研究了细胞 V2X 通信的传输模式选择和资源分配问题，将其制定为马尔可夫决策过程，提出了基于深度增强学习的去中心化算法，同时开发了基于图论的车辆聚类算法和分布式学习算法。实验结果表明，所提出的算法优于其他分布式基线算法，并验证了两个时间尺度的联邦 DRL 算法在新激活的 V2V 对中的优越性。

Feb, 2020

强化学习用于联合 V2I 网络选择和自主驾驶策略

本文提出一个基于强化学习的框架，以最小化道路碰撞、最大化通信数据速率的目标，同时优化自动驾驶车辆的网络选择和驾驶策略。通过将问题转化为马尔可夫决策过程并基于深度 Q 学习来优化加速度、减速度、变道和车辆 - 基站分配等行为，实现了安全驾驶和以改进的连通性。

Aug, 2022

混合车载通信网络中基于强化学习的 RAT 选择

合作智能交通系统依赖一套车到车（V2X）应用来提高道路安全。本文提出了一种智能可扩展的混合车载通信架构，利用多种无线接入技术的性能满足这些应用的需求，并基于深度强化学习提出一种通信模式选择算法来最大化网络可靠性并限制资源消耗，通过车队编队场景的数值结果验证了混合车载通信架构相比静态车载选择策略和多准则决策选择算法可将数据包接收率提高 30％以及资源消耗方面冗余通信模式效率提高 20％。

Apr, 2024

基于深度强化学习的混合 V2X 通信算法：基准研究

本文基于航天工业的冗余原则，提出在 V2X 技术中引入多种无线接入技术，通过在复杂变化的通道和交通条件下使用深度强化学习算法解决垂直切换问题，并通过实验结果验证了这种方法能够降低通信成本并提高可靠性。

Oct, 2023

基于集中训练和分散执行的多智能体深度强化学习在交通基础设施管理中的应用

我们提出了一个多智能体深度强化学习框架，用于管理大型交通基础设施系统的全生命周期。该框架通过约束的部分可观测马尔可夫决策过程，解决了在存在不确定性、风险考量和有限资源的情况下，对交通基础设施进行优化管理的问题。通过开发一种名为 DDMAC-CTDE 的 Deep Decentralized Multi-agent Actor-Critic 方法，该框架在美国弗吉尼亚州的一个具有代表性和现实性的交通网络应用中展示了优越的性能。与传统的管理策略相比，该方法在真实约束和复杂性下提供了近乎最优的解决方案。

Jan, 2024

多智能体强化学习：实用沟通和控制

这篇论文提出了一种名为 “Cyber-Physical POMDP” 的模型，将目标导向通信和网络控制相结合，以实现分散的移动机器人的协调，通过联合训练可以显着提高总体性能并可导致通信行动的隐式协调。

Feb, 2023

动态特征压缩下的有效通信

基于远程无线控制和 5G 及更高级别系统，本研究研究了优化传输策略以实现有效沟通的方法，提出了采用集合向量量化变分自编码器进行编码，并训练深度强化学习代理动态调整量化水平，通过在基准控制问题上的测试显示其具有显著的性能提升。

Jan, 2024