鲁棒深度强化学习调度：通过权重锚定实现

Apr, 2023

鲁棒深度强化学习调度：通过权重锚定实现

Robust Deep Reinforcement Learning Scheduling via Weight Anchoring

Steffen Gracla, Edgar Beck, Carsten Bockelmann, Armin Dekorsy

TL;DR采用权重锚定方法，固定神经网络中的期望行为以实现数据驱动学习的鲁棒性，以及在 QoS 有效资源调度方面的应用，并且可以在最优环境下进行学习，具有可比拟于模拟环境增强的性能，以及显著增强鲁棒性和可操纵性。

Abstract

Questions remain on the robustness of data-driven learning methods when crossing the gap from simulation to reality. We utilize weight anchoring<

data-driven learning weight anchoring neural networks qos-efficient resource scheduling robustness

发现论文，激发创造

一种多任务方法的鲁棒深度强化学习用于资源分配

通过将多任务学习应用于机器学习算法中，结合 Elastic Weight Consolidation 和 Gradient Episodic Memory 的方法，并与增强训练数据分布的现有技术进行比较，本研究证明多任务方法对处理医疗领域等特殊需求的稀有重大事件有很高的效果。

Apr, 2023

关于使用锚定训练视觉模型

通过研究锚定方法作为训练视觉模型的通用协议，揭示了其训练和推断过程对泛化和安全性的影响，同时提出了一种新的锚定训练协议以解决其存在的问题，并在数据集和架构的不同规模和复杂性上进行了实证评估，显示出在泛化和安全性指标方面与标准训练协议相比的显著性能提升。

Jun, 2024

利用追溯法在连续学习中锚定过去的知识

通过将经验回放与新的 “锚定” 目标相结合，使用双层优化来更新当前任务的知识，同时保持对过去任务的一些锚点的预测，以减少遗忘。在多个监督学习基准测试中进行实验，证明了我们的方法在精度和遗忘度量方面改进了标准经验回放，并适用于各种大小的情节性记忆。

Feb, 2020

面向延迟的物联网任务调度的深度强化学习在空天地一体化网络中的应用

本文旨在设计一种任务调度策略，以最小化所有任务的离线和计算延迟，同时满足无人机能源容量约束下的延迟导向物联网服务需求，并考虑到任务到达动态变化的情况，提出了基于风险敏感的强化学习算法来解决能耗风险约束下的决策问题。

Oct, 2020

多目标深度强化学习中的动态权重

本文提出了一种多目标 Q 网络，可以处理动态权重下的多目标强化学习问题，并引入了多样性经验回放方法以应对动态权重下的非稳定性问题。实验结果表明，该方法在权重变化场景和问题领域上的性能优于现有的算法。

Sep, 2018

深度强化学习在机器调度中的应用方法、现状和未来方向

深度强化学习 (DRL) 在机器调度问题中的方法和应用进行了全面的综述和比较，发现 DRL 方法在计算速度和生成接近全局最优解方面表现优于其他方法，但面临着处理复杂操作约束、多目标优化、泛化性、可扩展性、解释性和鲁棒性等限制，解决这些挑战将是未来研究中的关键焦点。该论文为研究人员评估当前 DRL 机器调度领域的现状以及发现研究空白提供了宝贵的资源，同时也帮助专家和从业者选择适合生产调度的 DRL 方法。

Oct, 2023

ReinWiFi: WiFi 网络应用层 QoS 优化的基于强化学习的框架

提出并实现了一种基于强化学习的调度框架，用于优化受到未知干扰影响的实际无线局域网（WLAN）的应用层服务质量（QoS）。通过调整争用窗口大小和应用层吞吐量限制，联合调度具有文件传递和对延迟敏感通信的应用层任务，如屏幕投射，以优化它们的 QoS，包括文件传递的吞吐量和对延迟敏感通信的往返时间。

May, 2024

多资源多机器作业调度的深度强化学习

本文在最小化数据中心网络中的工作调度时间方面进行了深入研究，提出了一种基于深度强化学习的改进方法并将其扩展到多个服务器群集，结果表明，相比于传统的资源分配算法，深度强化学习方法在各种复杂环境中有着出色的性能表现。

Nov, 2017

基于多智能体强化学习的地理分布数据中心可持续负载调度

本研究提出一种基于多智能体强化学习和演员 - 评论家方法的算法，通过与真实工作负载模式、能源价格和碳强度相互作用的云系统学习最优的协同调度策略，从而最大化 GPU 利用率、降低运营成本和减少碳排放。与其他算法相比，我们的方法提高了系统效用，最高可达 28.6％。

Apr, 2023

带有 Wasserstein 约束的强化学习

本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC，该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题，并且在 Cart-Pole 环境中得到了验证。

Jun, 2020