资源受限的深度强化学习
通过将多任务学习应用于机器学习算法中,结合 Elastic Weight Consolidation 和 Gradient Episodic Memory 的方法,并与增强训练数据分布的现有技术进行比较,本研究证明多任务方法对处理医疗领域等特殊需求的稀有重大事件有很高的效果。
Apr, 2023
使用基于转换器的深度 Q 网络,研究在健康资源匮乏条件下公平有效地进行重症护理资源分配的强化学习方法。实验结果表明,与现有的基于严重程度和合并症的方法相比,我们的方法在不同级别的呼吸机短缺情况下显著减少了多余死亡,并实现了更加公正的分配。
Sep, 2023
本文针对 5G 及更高版本中的高复杂度无线资源管理问题,通过引入基于深度强化学习的云计算和分布式决策方案,并结合压缩算法和空间迁移学习,提出一种实现绿色深度强化学习的架构和算法,为实现绿色智能设备带来了潜在的解决方案。
Oct, 2019
本文总结和回顾了近期利用强化学习解决空间资源分配问题的理论方法和应用研究,提供了其基本原理、相关方法论和应用研究的综合概述,同时突出了未解决问题的一些紧迫性需求。
Mar, 2024
研究采用深度强化学习方法(DDPG、TD3 和 SAC18 和 SAC19)分析并找到了加利福尼亚州福尔桑水库的最佳操作政策,结果表明 TD3 和 SAC 方法能够满足水库需求并优化其运行策略。
Mar, 2024
提出了一种利用深度强化学习和混合整数规划的框架,用于优化能量储存系统的调度决策,同时严格执行操作约束,以及在存在不确定性的环境中取得高质量的调度决策。
Jul, 2023
本文提出了一种分布式的深度强化学习资源分配技术,针对协作无线电网络所呈现的多智能体环境及其强化学习过程中可能导致的非平稳环境,通过考虑深度强化学习的特定方面,本文的算法能够迭代地收敛于一个平衡政策,其可用于无需与其他代理协调配合的情况下工作。仿真结果表明,与等效的基于 Q 表的 Q 学习算法相比,所提出的技术具有更快的学习性能,并能够在足够长的学习时间内在 99% 的情况下找到最优策略。此外,对于与等效的基于表格的实现相比,仿真结果显示出我们的 DQL 方法只需要不到一半的学习步骤才能实现相同的性能。此外,证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。
May, 2022
本文提出了一种基于深度强化学习的分布式资源分配技术,用于多代理环境下的认知无线电网络,该网络通过干扰下动态频谱访问与主干网络共存。该技术是分布式的,且不需要与其他代理协调,通过模拟结果可以显示出,该技术能够在有限的学习时间内,找到使性能在 3%之内的策略。
Oct, 2019
基于深度强化学习,使用编码器 - 解码器的注意机制生成的策略在某些车辆路径问题上表现出有效性,但在某些复杂车辆路径问题上,仍缺乏有效的强化学习方法。本研究针对一种包含多辆卡车和多段路径要求的车辆路径问题变体,扩展现有的编码器 - 解码器注意模型,使其能够处理多辆卡车和多段路径需求,并在日本汽车零部件制造商爱信公司的实际供应链环境中测试,发现我们的算法优于爱信公司的最佳解决方案。
Jan, 2024
在研究中,我们采用了两种方法来解决情境信息的问题:情境 Thompson 抽样和受监督的强化学习,这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易,我们将之前的金融交易策略(常比例保险组合)与深度确定性策略梯度相结合。实验结果表明,两种方法都可以加速强化学习的进展,以获取最优解。
Oct, 2023