关键词online convex optimization
搜索结果 - 66
- 多智能体模仿学习:价值易得,遗憾难求
协作学习中的多智能体模仿学习问题,以减小学习者和专家之间的价值差为目标,但无法保证对战略智能体的偏离具有鲁棒性。因此,研究了在马尔科夫博弈中以后悔差作为目标的代替方案,并提出了两种有效的方法来最小化后悔差。
- 通过懒惰算法实现私密在线学习
我们研究了私密在线学习的问题,特别是专家预测(OPE)和在线凸优化(OCO)。我们提出了一种将惰性在线学习算法转化为私密算法的新方法。我们通过使用现有的惰性算法解决这些问题,将我们的转化应用于差分隐私 OPE 和 OCO。我们的最终算法在高 - 静态和动态遗憾最小化之间的等价关系
动态遗憾最小化在在线凸优化中是一个重要问题。本文提出了一个新的统一框架来分析和设计这些算法,证明了适应任意比较序列的动态遗憾达到 O (根号下 T 总和的局部平滑化平方路径长度) 的算法是可行的,并且提供了一个替代路径长度计算方式的新概念来 - ICML通过序贯决策追求联邦学习的整体福祉
现有的公平性感知聚合策略可以统一为在线凸优化框架,我们通过改进现有方法中的次优设计,提出 AAggFF,实验结果表明 AAggFF 在实际情景下实现了更好的客户级公平性。
- 每轮只需 1 个投影的通用在线凸优化
通过黑匣子减少,我们使用简化域上定义的替代损失函数,构建了一种只需要进行一次投影的通用 OCO 算法,对于一轮在线问题,我们维护每种类型函数的一组专家,并通过元算法聚合他们的预测。我们的方法的关键在于针对强凸函数设计的专家损失函数,并通过创 - 捷足先登:一种无参数的终身强化学习优化器
PACE 是一种无需超参数调整和先验知识的参数自由优化器,基于在线凸优化理论解决了终身强化学习中可塑性损失、适应新任务以及分布变化等挑战。实验证明,尽管底层优化问题是非凸和非平稳的,PACE 在 Procgen,Atari 和 Gym Co - 非光滑非凸优化中的随机放缩和动量
通过在每个时间点对更新进行指数分布随机标量缩放的方式,我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。
- 具有对抗约束的在线凸优化的严格界
有关在线凸优化和约束在线凸优化的一篇研究论文,证明了一个在线策略可以同时实现 O (√T) 的遗憾和 θ̃(√T) 的累积约束违规,通过将 AdaGrad 算法的自适应遗憾界与 Lyapunov 优化相结合,达到了这一结果。
- 线性约束在线凸优化的乐观安全性
在线凸优化(OCO)的未知约束设置是近年来备受关注的问题。本研究考虑了一种具有静态线性约束且玩家接收到噪声反馈并始终满足的问题版本。通过利用我们的乐观安全设计范例,我们提供了一种算法来解决该问题,其后悔值为 O (√T)。这比之前最佳后悔边 - 利用可行集的曲率在在线凸优化中获得快速速率
基于在线凸优化和曲率的可行集合的分析,本文提出了一种新的方法通过利用可行集合的曲率来实现快速收敛,不仅可以适用于凸损失函数,同时还能在随机、对抗性和受干扰的环境下获得良好的性能。
- 无投影在线凸优化与时变约束
在线凸优化中,考虑具有对抗性时变约束的情景,在这种情况下,行动必须相对于固定约束集是可行的,同时在平均上还需要近似满足附加的时变约束。我们提出了一种算法,通过线性优化预言机(LOO)访问这个集合来保证在一个长度为 T 的序列上,通过总共 T - 在线凸优化的广义方法
本研究分析了在线凸优化问题在不同情境下的处理方法,并在具有完全适应性对手的在线线性优化算法为在线凸优化算法提供了一个模板,同时将需要完全信息反馈的算法转换为具有相近遗憾界限的半强盗反馈算法。此外,通过对半强盗反馈中使用确定性算法的完全适应性 - 具有未知延迟的在线顺序决策
在在线顺序决策的领域中,我们利用在线凸优化(OCO)框架解决带有延迟的问题,其中决策的反馈可能会有未知的延迟。我们提出了三类基于近似解的延迟算法,以处理不同类型的接收反馈。我们提出的算法多功能且适用于通用范数,在每种算法类型下给出了相应的遗 - 分布式在线优化中处理延迟反馈:一种无投影的方法
本研究中,我们在边缘学习方面进行了调查,探讨了在线凸优化问题下的对抗性延迟反馈,提出了两种无投影算法,用于集中式和分布式环境中,通过与现有方法在真实世界问题上的比较,我们理论上和实验证明了算法的性能,实现了延迟环境中 OCO 问题的 O ( - 在线鞍点问题与在线凸凹优化
该研究论文围绕解决在线鞍点问题,引入了在线凸凹优化(OCCO)框架,该框架涉及一系列二人时变凸凹博弈。我们提出了广义对偶间隙(Dual-Gap)作为性能度量,并建立了 OCCO 与 Dual-Gap 之间与在线凸优化(OCO)与后悔之间的并 - 黑暗中的游戏:带有对抗性约束的无悔学习
我们研究了经典的在线凸优化(OCO)框架的一种推广,通过考虑额外的长期对抗性约束。我们提出了一种元策略,能够同时达到亚线性的累积约束违规和亚线性的遗憾,通过将约束问题转化为递归构建的一系列代理代价函数的标准 OCO 问题的黑盒减缩。我们展示 - 具有切换成本和延迟梯度的在线凸优化
在线凸优化问题中,我们考虑带有二次和线性切换成本的有限信息环境下的问题,通过使用关于先前目标函数的梯度信息,我们提出了在线多梯度下降算法 (Online Multiple Gradient Descent, OMGD),并证明了其在二次切换 - 在线凸优化下的在线次模最大化
研究了在线环境下的通用拟阵约束下的单调子模最大化问题,证明了一大类子模函数在在线凸优化问题中的优化等价性,通过合适的舍入方案,实现了在组合优化中达到次线性后悔的 OCO 算法。同时,该规约也适用于多种不同版本的在线学习问题,包括动态后悔、游 - 一种高效的在线凸优化内点方法
在线凸优化中一种新的遗憾最小化算法被描述,该算法具有良好的遗憾界限和适应性,并与内点算法在运行时间上相匹配。
- 渐进变化的通用在线学习:多层在线集成方法
本文提出了基于多层在线集成的在线凸优化方法,具有两种不同的适应性水平,并针对强凸、指数 - 凹和凸损失函数分别获得了收敛等效性和遗憾上界。