资源受限的深度强化学习

Dec, 2018

Resource Constrained Deep Reinforcement Learning

Abhinav Bhatia, Pradeep Varakantham, Akshat Kumar

TL;DR为了优化城市资源分配，本文研究了基于 Deep RL 方法对于资源分配的约束条件以及对模拟器的表现

Abstract

In urban environments, supply resources have to be constantly matched to the "right" locations (where customer demand is present) so as to improve quality of life. For instance, →

supply resources customer demand ambulances allocation deep rl methods

发现论文，激发创造

一种多任务方法的鲁棒深度强化学习用于资源分配

通过将多任务学习应用于机器学习算法中，结合 Elastic Weight Consolidation 和 Gradient Episodic Memory 的方法，并与增强训练数据分布的现有技术进行比较，本研究证明多任务方法对处理医疗领域等特殊需求的稀有重大事件有很高的效果。

Apr, 2023

深度强化学习在医疗资源高效公平分配中的应用

使用基于转换器的深度 Q 网络，研究在健康资源匮乏条件下公平有效地进行重症护理资源分配的强化学习方法。实验结果表明，与现有的基于严重程度和合并症的方法相比，我们的方法在不同级别的呼吸机短缺情况下显著减少了多余死亡，并实现了更加公正的分配。

Sep, 2023

绿色深度强化学习用于无线电资源管理：架构，算法压缩与挑战

本文针对 5G 及更高版本中的高复杂度无线资源管理问题，通过引入基于深度强化学习的云计算和分布式决策方案，并结合压缩算法和空间迁移学习，提出一种实现绿色深度强化学习的架构和算法，为实现绿色智能设备带来了潜在的解决方案。

Oct, 2019

强化学习在空间资源分配中的应用调查

本文总结和回顾了近期利用强化学习解决空间资源分配问题的理论方法和应用研究，提供了其基本原理、相关方法论和应用研究的综合概述，同时突出了未解决问题的一些紧迫性需求。

Mar, 2024

填充 - 溢出：深度强化学习策略梯度方法用于水库操作决策与控制

研究采用深度强化学习方法（DDPG、TD3 和 SAC18 和 SAC19）分析并找到了加利福尼亚州福尔桑水库的最佳操作政策，结果表明 TD3 和 SAC 方法能够满足水库需求并优化其运行策略。

Mar, 2024

一种用于最优能量储存系统调度的约束强化深度学习框架

提出了一种利用深度强化学习和混合整数规划的框架，用于优化能量储存系统的调度决策，同时严格执行操作约束，以及在存在不确定性的环境中取得高质量的调度决策。

Jul, 2023

分布式和非协同认知无线电资源分配的深度强化学习

本文提出了一种分布式的深度强化学习资源分配技术，针对协作无线电网络所呈现的多智能体环境及其强化学习过程中可能导致的非平稳环境，通过考虑深度强化学习的特定方面，本文的算法能够迭代地收敛于一个平衡政策，其可用于无需与其他代理协调配合的情况下工作。仿真结果表明，与等效的基于 Q 表的 Q 学习算法相比，所提出的技术具有更快的学习性能，并能够在足够长的学习时间内在 99% 的情况下找到最优策略。此外，对于与等效的基于表格的实现相比，仿真结果显示出我们的 DQL 方法只需要不到一半的学习步骤才能实现相同的性能。此外，证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。

May, 2022

分布式非协调认知无线电资源分配的深度强化学习

本文提出了一种基于深度强化学习的分布式资源分配技术，用于多代理环境下的认知无线电网络，该网络通过干扰下动态频谱访问与主干网络共存。该技术是分布式的，且不需要与其他代理协调，通过模拟结果可以显示出，该技术能够在有限的学习时间内，找到使性能在 3％之内的策略。

Oct, 2019

多卡车多腿需求路线的深度强化学习

基于深度强化学习，使用编码器 - 解码器的注意机制生成的策略在某些车辆路径问题上表现出有效性，但在某些复杂车辆路径问题上，仍缺乏有效的强化学习方法。本研究针对一种包含多辆卡车和多段路径要求的车辆路径问题变体，扩展现有的编码器 - 解码器注意模型，使其能够处理多辆卡车和多段路径需求，并在日本汽车零部件制造商爱信公司的实际供应链环境中测试，发现我们的算法优于爱信公司的最佳解决方案。

Jan, 2024

从赌徒模型到深度确定性策略梯度，具有情境信息的强化学习

在研究中，我们采用了两种方法来解决情境信息的问题：情境 Thompson 抽样和受监督的强化学习，这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易，我们将之前的金融交易策略（常比例保险组合）与深度确定性策略梯度相结合。实验结果表明，两种方法都可以加速强化学习的进展，以获取最优解。

Oct, 2023