BriefGPT.xyz
Ask
alpha
关键词
delayed bandit feedback
搜索结果 - 3
带有延迟反馈的强化学习优化中的改进后悔度
我们研究了具有延迟反馈的强凸波段优化问题,通过精细地利用延迟波段反馈的阻塞更新机制,我们的算法改进了损失边界并将其与延迟设置下的传统波段梯度下降(BGD)算法相匹配。
PDF
5 months ago
组合半匪谷、线性匪谷和 MDP 的非随机延迟反馈的统一分析
本文提出了 Follow The Regularized Leader (FTRL) 算法并应用于在线学习中,通过分离延迟反馈成本和赌博反馈成本,得出了在三种不同的情况下的新结果,包括组合半赌博、带延迟的对抗 Markov 决策过程以及带权
→
PDF
a year ago
带有 Bandit 反馈的对抗性马尔可夫决策过程中的随机扰动领袖策略
通过研究 Follow-the-Perturbed-Leader 算法在 Adversarial Markov Decision Processes 中的应用,作者发现该算法不仅在有限时间内能够实现近似最优的 regret bound,并且
→
PDF
2 years ago
Prev
Next