BriefGPT.xyz
Ask
alpha
关键词
follow the regularized leader
搜索结果 - 3
组合半匪谷、线性匪谷和 MDP 的非随机延迟反馈的统一分析
本文提出了 Follow The Regularized Leader (FTRL) 算法并应用于在线学习中,通过分离延迟反馈成本和赌博反馈成本,得出了在三种不同的情况下的新结果,包括组合半赌博、带延迟的对抗 Markov 决策过程以及带权
→
PDF
a year ago
从庞加莱回归到不完全信息博弈的收敛:通过正则化寻找均衡
研究了在顺序不完美信息游戏中遵循规则的领导者动态,推广了 Poincaré 循环结果,并探讨了通过调整奖励来建立收敛保证的技术,进而构建了精确收敛到 Nash 平衡的算法,为零和二人不完美信息游戏的无模型算法提供了新思路。
PDF
4 years ago
无尺度在线学习
本文设计并分析了一种不需要任何上限或下限的在线线性优化算法,实现了适应损失向量范数的缩放不变性,并且通过 FTRL 和 MD 元算法实现了最优遗憾,并为无界决策集开发了一种非真空遗憾绑定的自适应算法,并对基于 MD 的无标度算法在无界域上的
→
PDF
8 years ago
Prev
Next