BriefGPT.xyz
Feb, 2024
学习使用Bandit反馈调度在线任务
Learning to Schedule Online Tasks with Bandit Feedback
HTML
PDF
Yongxin Xu, Shangshang Wang, Hengquan Guo, Xin Liu, Ziyu Shao
TL;DR
提出了一种基于双重乐观学习的Robbins-Monro算法来解决在线任务调度中不确定任务到达分布和未知奖励与成本问题。通过在决策过程中利用乐观估计奖励与成本比例和Robbins-Monro方法隐式学习任务到达分布,DOL-RM算法在不同不确定性环境下实现了有效的调度,并取得了比其他先进基准方法更好的累积奖励与成本比。
Abstract
online task scheduling
serves an integral role for task-intensive applications in
cloud computing
and
crowdsourcing
. Optimal scheduling ca
→