BriefGPT.xyz
Ask
alpha
关键词
robbins-monro algorithm
搜索结果 - 2
学习使用 Bandit 反馈调度在线任务
提出了一种基于双重乐观学习的 Robbins-Monro 算法来解决在线任务调度中不确定任务到达分布和未知奖励与成本问题。通过在决策过程中利用乐观估计奖励与成本比例和 Robbins-Monro 方法隐式学习任务到达分布,DOL-RM 算法
→
PDF
4 months ago
一种可以利用先验信息加速收敛的 Robbins--Monro 序列
提出一种利用先验信息改善 Robbins-Monro 算法收敛速度的新方法,不需要使用潜在错误的回归模型,且适用于各种先验分布,尤其在测量函数次数有限和观测到的噪声较大的应用中,该先验信息 Robbins-Monro 序列比标准序列收敛更快
→
PDF
6 months ago
Prev
Next