BriefGPT.xyz
Ask
alpha
关键词
exp3 algorithm
搜索结果 - 3
社会福利的自适应最大化
旨在最大化社会福利,我们研究重复选择政策的问题,由私人效用和公共收入构成的加权和。通过实验证明,我们获得了与误差下界相匹配的上界,表明福利最大化比多臂赌博问题更困难,且我们的算法实现了最佳速率。
PDF
9 months ago
对抗性多臂老虎机中的延迟和数据的适应
本文考虑在延迟反馈下的敌对多臂老虎机问题,并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体,从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后,我们介绍了 Ada
→
PDF
4 years ago
从强盗到专家:一场统治与独立的故事
本研究考虑 Mannor 和 Shamir 引入的部分可观测性模型,利用 Exp3 算法在可观测性图上高效运行,以支配和独立数来描述定向可观测性模型的遗憾(regret),并证明在无向情况下,学习者可以在选择行动之前甚至不访问可观测性图前实
→
PDF
11 years ago
Prev
Next