BriefGPT.xyz
Ask
alpha
关键词
worst-case regret
搜索结果 - 5
行动消失下的弱监督学习
我们提出了一种方案,可以使任何多臂赌博算法在作用擦除通道下表现出与无擦除情况下不差于一阶的最坏后悔率;此方案基于一个新颖的多臂赌博设置,在该设置中,学习器需要通过擦除通道向分布式代理传达动作信息,而通过外部传感器直接收集动作回报。
PDF
14 days ago
带专家建议的强盗问题的改进遗憾界限
通过受限反馈模型,本研究提供了关于 “专家建议问题” 的最坏情况后悔度的新的下界和上界,其中下界为 O (sqrt (KT ln (N/K))),上界与之相匹配,并改进了现有最佳下界 sqrt (KT (ln N) / (ln K))。同时
→
PDF
16 days ago
一种可证明有效的无模型后验采样方法,用于情节强化学习
本文提出了一种新的模型无关后验采样的公式,适用于更广泛的周期性强化学习问题,并通过新颖的证明技术,展示了在适当条件下,我们的后验采样方法的最坏后果可以与基于优化的方法的最优结果相匹配,尤其是在线性 MDP 设置中,我们的算法产生的遗憾与现有
→
PDF
2 years ago
度量空间内高效无模型强化学习中的缩放
该论文提出了 ZoomRL 算法,应用于连续状态 - 动作空间中的序列强化学习问题,通过自适应离散化来平衡开发与探索并获得良好的性能保证。算法可以达到最坏情况下的复杂度 $\tilde {O}(H^{rac {5}{2}} K^{rac
→
PDF
4 years ago
NIPS
Bandits 问题的 Pareto 遗憾前沿
针对多臂赌博机问题,该研究研究了如何通过实现更小的针对某些特殊操作的最差后果来达到更好的结果,最终给出解决方案并进行了上下界的讨论。
PDF
9 years ago
Prev
Next