Apr, 2023

鲁棒深度强化学习调度:通过权重锚定实现

TL;DR采用权重锚定方法,固定神经网络中的期望行为以实现数据驱动学习的鲁棒性,以及在 QoS 有效资源调度方面的应用,并且可以在最优环境下进行学习,具有可比拟于模拟环境增强的性能,以及显著增强鲁棒性和可操纵性。