关键词bandit convex optimization
搜索结果 - 13
- 带有延迟反馈的强化学习优化中的改进后悔度
我们研究了具有延迟反馈的强凸波段优化问题,通过精细地利用延迟波段反馈的阻塞更新机制,我们的算法改进了损失边界并将其与延迟设置下的传统波段梯度下降(BGD)算法相匹配。
- 二阶方法在赌局优化和控制中的应用
本文介绍了一种简单且实用的在线牛顿步骤算法,该算法在一类称为 κ- 凸的凸函数中具有最优(以时间长度衡量)的遗憾界,并且在包括线性、二次和广义线性模型在内的广泛实际损失函数中为最高效的已知方法。此外,我们研究了我们的二阶赌博算法在具有一定仿 - 联邦在线与强盗凸优化
我们研究了面对自适应对手时的分布式在线和掷骰机凸优化问题。我们旨在在 $M$ 个并行工作的机器上通过 $T$ 轮和 $R$ 次间歇通信来最小化平均遗憾。在假设底层成本函数是凸函数并且可以自适应生成的情况下,我们的研究结果表明,在机器能够访问 - 多点带约束的强化凸优化反馈
本文研究带有约束的赌博性凸优化问题,在部分信息的损失函数下,学习者旨在生成一系列决策,使得累计损失减少,同时累计违约累积也在减少。我们采用累计硬约束违反作为约束违反的指标,并提出了一种基于罚函数的近端梯度下降方法,能够在凸损失函数和时变约束 - 非随机控制赌博机的最优率
探究了具有半对抗干扰和随时间变化的对抗性贝叶斯损失函数的线性四次型调节器和线性四次型高斯控制问题。提出了一种新的带有记忆的贪婪凸优化方案,其算法达到了最优遗憾度
- AAAI具有隐私保证的无投影赌率优化
本篇研究设计了差分隐私算法来解决在投影自由设置下的赌博凸优化问题,该设置在决策集具有复杂几何结构的情况下非常重要。
- 带有赌博反馈的非随机控制
本文研究了控制具有对抗扰动的线性动态系统的问题,其中控制器仅有可用的标量损失反馈,且损失函数本身未知。针对这个问题,无论系统是否知道,我们都提出了一个有效的次线性后悔算法,并提出了一种用于带有记忆的损失函数的通用带贝叶斯优化算法,这可能是独 - 无投影赌博凸优化改进遗憾界
本文提出一种基于条件梯度法的 projection-free 的算法,通过线性优化预测每一轮的动作并达到了 $O (T^{3/4})$ 的预期最小化损失 (expected regret)。
- 非静态环境下的臂匠凸优化
探讨了分布不稳定的环境下,采用动态遗憾作为衡量标准的医生凸优化问题,并提出了一种新的算法,在不需要预知路径长度情况下,可以分别实现 $O (T^{3/4}(1+P_T)^{1/2})$ 和 $O (T^{1/2}(1+P_T)^{1/2}) - 具未知延迟的强盗在线学习
该论文研究了多臂赌博问题和赌博凸优化问题中存在的未知延迟反馈问题,并开发了应对这种情况下的延迟探索、利用和指数迭代(DEXP3)和延迟赌博梯度下降(DBGD)算法。通过统一的分析框架,证明了 DEXP3 和 DBGD 算法的性能优越。
- 无投影随机凸优化
该论文提出了第一个计算有效的基于投影的算法来解决 Bandit 凸优化问题,并以各种问题(包括二次规划、组合优化和矩阵完成问题)上的实验结果证明了其性能。
- (有偏) 带噪声梯度预言的凸优化
提出了一种新的框架用抽象的预言家代替了具体的梯度估计方法,并统一了以前的工作,同时表明为了实现最优的根号 - n 速率,这种方法还需要进一步的研究。
- 带两点反馈的赌博机和零阶凸优化的最优算法
本文介绍了一种基于梯度估计器的简单算法,可以在 convex Lipschitz 函数方面实现带有两个反馈信息的 bandit convex optimization 和带有两个函数评估的 zero-order stochastic con