在线随机排队网络优化的干预辅助策略梯度方法：技术报告

Apr, 2024

在线随机排队网络优化的干预辅助策略梯度方法：技术报告

Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report

Jerrod Wigmore, Brooke Shrader, Eytan Modiano

TL;DR在线深度强化学习控制（ODRLC）是一种可替代传统方法的方法，它通过智能代理与实际环境直接交互并从这些在线交互中学习最优控制策略。我们提出了一种干预辅助框架，结合了神经网络的学习能力和传统控制策略的稳定性，以解决随机队列网络中无界状态空间的挑战。通过实验证明，我们的提出算法优于传统控制方法和之前的 ODRLC 算法。

Abstract

deep reinforcement learning (DRL) offers a powerful approach to training neural network control policies for stochastic queuing networks (

deep reinforcement learning neural network control policies stochastic queuing networks online interactions intervention-assisted framework

发现论文，激发创造

基于 Nash Deep Q 网络方法的大规模交通信号控制

本文介绍了一种基于 nash equilibrium 的 off-policy nash deep Q-Network (OPNDQN) 算法，该算法克服了完全集中和多智能体强化学习方法的缺点，不仅可以在多个交叉口中找到纳什均衡，也能够解决多智能体 Markov 过程的不确定性问题。采用 SUMO 仿真器进行了广泛的实验，结果表明 OPNDQN 相对于现有的多智能体强化学习方法在平均排队长度、训练回报和平均等待时间方面具有显著优势。

Jan, 2023

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

基于模型的深度强化学习电压控制策略高效学习

提出了一种基于模型的深度强化学习方法，用于设计短期电压稳定性问题的紧急控制策略，并使用基于深度神经网络的动态代理模型进行训练，最终在 IEEE 300 总线测试系统上实现了 97.5% 的样本效率和 87.7% 的训练效率。

Dec, 2022

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

训练韧性 Q - 网络抵御观测干扰

本文提出了一种基于因果推断的 DQN 算法 ——CIQ，用于提高在故障干扰下深度强化学习（DRL）的鲁棒性和性能。实验结果表明，CIQ 算法在多个 DQN 环境中能够获得更高的性能和更强的抗干扰能力。

Feb, 2021

使用数据生成接近最优控制区域温度的深度强化学习策略

通过在基于物理一致的神经网络 (PCNNs) 上评估 DRL 代理，我们证明了 DRL 代理比基于规则的控制器表现更好，并且实现了接近最优的表现，从而提高了建筑行业的能效

Mar, 2022

通过深度强化学习实现通用量子控制

提出一种新的量子控制框架，通过在强化学习智能体的训练环境中加入控制噪声，利用强化学习技术优化量子计算的速度和保真度以及对泄漏和随机控制误差的抗扰性，最终取得了一定的优化成果。

Mar, 2018

基于知识辅助的深度强化学习在 5G 调度器设计中的应用：从理论框架到实现

本论文提出了一种基于知识辅助的深度强化学习算法来设计第五代（5G）移动通信网络中的无线调度器，利用理论模型提出了理论的强化学习框架，在线离线相结合的方式实现了知识辅助 DDPG 算法，通过模拟实验和实际测试证明了该方法在收敛时间和 QoS 性能方面都优于现有方案，减少了 30%~50% 的数据包丢失率。

Sep, 2020

填充 - 溢出：深度强化学习策略梯度方法用于水库操作决策与控制

研究采用深度强化学习方法（DDPG、TD3 和 SAC18 和 SAC19）分析并找到了加利福尼亚州福尔桑水库的最佳操作政策，结果表明 TD3 和 SAC 方法能够满足水库需求并优化其运行策略。

Mar, 2024

队列学习：一种提供服务质量的强化学习方法

本文介绍了一种基于强化学习的服务速率控制器，该控制器通过使用深度确定性策略梯度 (DDPG) 算法作为函数，将服务速率 (行动) 学习为串联服务系统中队列长度 (状态) 的函数，并提供关于系统端到端延迟的概率性保证。

Jan, 2021