Feb, 2024

学习使用Bandit反馈调度在线任务

TL;DR提出了一种基于双重乐观学习的Robbins-Monro算法来解决在线任务调度中不确定任务到达分布和未知奖励与成本问题。通过在决策过程中利用乐观估计奖励与成本比例和Robbins-Monro方法隐式学习任务到达分布,DOL-RM算法在不同不确定性环境下实现了有效的调度,并取得了比其他先进基准方法更好的累积奖励与成本比。