- 平滑在线优化的最优算法:超越在线平衡下降
研究了在线凸优化中的竞争比率和算法,证明了一个新的下限。同时提出了两种新的算法,G-OBD 和 R-OBD 并证明了其具有 $O (m^{-1/2})$ 的竞争比率及成功降低了回归成本。
- ICML在线学习中的无矩阵预处理
该论文提出一种在线凸优化算法,它具有介于使用最优预处理矩阵的算法和使用对角预处理矩阵的算法之间的遗憾,并且其遗憾界不会比对角预处理更差,在特定情况下甚至超过了具有全矩阵预处理的算法的遗憾界。该算法具有与在线梯度下降相同的时间和空间复杂度,并 - 在线马尔可夫决策过程中全局凸奖励的强化学习中的勘探利用权衡
研究了在 Markov 决策问题中,代理人通过在线凸规划算法设计非固定策略,以最大化全局凹奖励函数和矢量结果的均值,以解决多目标优化和 Markov 环境下的受限优化问题。
- ICML基于梯度的元学习的可证明保证
本文介绍了基于在线凸优化的元学习问题,并提出了一种元算法,使得流行的基于梯度的元学习和传统的基于正则化的多任务转移方法之间的差距得以弥合。我们的方法是第一个在凸设置下同时满足良好的样本效率保证,并且具有随着任务相似度提高而改善的泛化界限,同 - 具有次指数噪声的无参数在线凸优化
研究了涉及亚指数噪声的无约束在线凸优化问题,设计了一种新的巴拿赫空间参数自由 OCO 算法 BANCO(Betting on Noisy Coins),证明了其具有最优的性能表现,并将其应用于局部随机梯度下降算法以及多次对数定律的应用。
- 动态环境下的自适应在线学习
本文研究动态环境下的在线凸优化问题,通过提出一种自适应学习的方法 Ader,利用专家跟踪算法结合一组专家来最小化动态遗憾,并扩展到可用于表征比较器的动态模型序列的情形。
- 风险规避的随机凸臂老虎机
本文研究了在线凸优化的问题,在该问题中,决策者是风险规避的。我们提供了两个算法来解决这个问题。第一个是降落算法,易于实现。第二个算法结合了椭圆体方法和中心点装置,对于回合数实现了(几乎)最优的后悔界限。据我们所知,这是在在线凸博弈问题中首次 - 累积约束的在线凸优化
该研究提出了一种在线凸优化算法,其可以处理特定类型的累计平方约束违规问题,以及为凸目标导出了另类的后悔边界,并针对强凸目标提出了改进的后悔边界,并在数值实验中说明了该算法的效果。
- 随机约束下的在线凸优化
本文研究带随机约束的在线凸优化问题,提出了一种算法,能够达到预期和高概率的收益掉队和约束违反值等性能保证,并在真实数据中心调度问题上进行了实验验证。
- 基于 Bandit 凸优化的可扩展和动态 IoT 管理
针对在线凸优化中的时间变化的损失函数和约束条件进行分析,提出了一种 bandit online saddle-point(BanSaP)算法,该算法可适应不断变化的损失函数和环境,同时进行优化,在雾计算下的实验表明相对于已有的基于梯度反馈的 - ICML带有对数遗憾界的 RMSProp 和 Adagrad 变种
本文针对 Adaptive gradient methods 中的 RMSProp 方法进行研究,并提出 SC-Adagrad 和 SC-RMSProp 两个变体,使用对数回归算法在强凸函数上具有较小的遗憾值和在深度神经网络上具有更好的性能 - 时变约束在线凸优化
本文研究了具有时间变化的约束条件的在线凸优化问题,并提出了一种算法,其收敛性具有一定的时间复杂度,并且可以在没有先验知识的情况下达到无偏的最优解。
- 一种动态网络资源分配的在线凸优化方法
该论文探讨了在线凸优化涉及敌对损失函数和敌对约束的情况,开发了一种修改的在线鞍点(MOSP)方案,并在动态网络资源分配任务中进行了应用,证明了其相对于梯度方法的性能优势。
- 稀疏性与曲率的改进乐观镜像下降算法
本文研究了在线凸优化的一些新进展,特别是对于在稀疏、可预测序列和曲线损失等易于数据实例中进一步提高后悔界限的方法的统一处理。我们提出了一种自适应、乐观的更新规则,并解释了一种可以动态适应损失函数曲率的更新规则,并最终将这些结果扩展到了复合损 - ICML追踪缓慢移动的预知者:真实梯度和噪声梯度下的在线学习最优动态遗憾
本研究关注在线凸优化的动态遗憾,通过探索称为路径变化的时间变化机制,提出了一些动态遗憾改进的变差上限,并证明他们在已有的下限条件下是最优的。
- MetaGrad: 在线学习中的多个学习率
介绍了 MetaGrad 方法,它是一种自适应方法,能够在多种凸函数子类中实现快速速率,该方法采用了倾斜指数权重主算法,可以同时考虑多个学习率,适用于指数凹和强凸函数,以及各种类型的随机和非随机函数。
- 赌博机凸优化问题的最优算法
本文针对带有随机反馈的在线凸优化问题(称为 bandit convex optimization),通过将椭球法应用于在线学习,给出了第一个 $\tilde {O}(\sqrt {T})$-regret 算法,并引入了离散凸几何中的新工具。
- 带长期约束的在线凸优化自适应算法
提出了一种适应性在线梯度下降算法,用于解决具有长期约束的在线凸优化问题,可以处理任意凸约束,该算法在损失和约束违规方面分别具有 O (T^max {β,1−β}) 和 O (T^(1−β/2)) 的累积遗憾界,优于 Mahdavi 等(20 - 具有凹奖励和凸背包的赌博机
在这篇论文中,我们提出了一种广义的勘探 - 开发权衡模型,该模型允许在时间序列上对任意凹奖励和凸度约束进行决策,并对时间范围进行规定。我们证明了一种用于 MAB 的 UCB 系列算法自然而简单的扩展,提供了一个具有近乎最优的后悔保证的多项式 - 一种线性收敛的条件梯度算法及其在在线和随机优化中的应用
本研究介绍了一种基于条件梯度算法的优化模型,可用于求解线性优化问题和非线性凸优化问题,并给出了一种基于此算法的在线凸优化算法,具有线性收敛速度和最优的遗憾保证。