下降至删除:基于梯度的机器遗忘方法
在线学习不仅仅是记住一切。通过使用自适应在线学习中近期开发的技术重新审视折扣遗憾的经典概念,我们提出了一个能够优雅地在新数据到达时遗忘历史的关键算法,改进了传统的非自适应算法,即使用固定学习率的梯度下降算法。具体而言,我们的理论保证不需要任何除了凸性之外的结构假设,该算法在次优超参数调整时可以证明是鲁棒的。通过在线符合预测,我们进一步展示了这些好处,它是一个具有集合成员决策的下游在线学习任务。
Feb, 2024
在线统计推断使得实时分析顺序采集的数据成为可能,本文引入了一种针对高维广义线性模型的在线推断新方法,通过在每次新增数据到达时更新回归系数估计和其标准误差,与现有方法相比,该方法以单次传递模式运行,大大降低了时间和空间复杂度。方法的核心创新在于针对动态目标函数设计的自适应随机梯度下降算法,结合了一种新型的在线去偏过程,能够在有效控制由动态变化的损失函数引入的优化误差的同时,保持低维度的摘要统计量。我们的方法,即近似去偏套索(ADL),不仅减轻了有界个别概率条件的需求,而且显著提高了数值性能。数值实验证明了所提出的 ADL 方法在各种协方差矩阵结构下一致表现出鲁棒性。
May, 2024
本文提出了一种理论框架来设计和理解实用的元学习方法,该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习,为统计学习 - to-learn 的转移风险提供更加精确的界限,并在任务环境动态变化或任务共享一定几何结构的情况下,导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法,并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。
Jun, 2019
本文研究了在线学习在没有循环的马尔可夫决策过程中的应用,提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界,通过处理凸性能标准并改进之前的遗憾界,扩展了对抗性 MDP 模型,并可以更好地处理单个 episode 的损失。
May, 2019
研究了在转换概率分布和损失函数是对手选择并随时间变化时,如何学习具有有限状态和动作空间的马尔可夫决策过程问题。介绍了一种算法,如果转换概率满足均匀混合条件,则任何比较类中的策略的后悔增长为比赛轮数的平方根。只要比较类是多项式级别且我们可以为每个策略计算样本路径的期望值,我们的方法就是有效的。对于一般情况的后悔小的高效算法仍然是一个开放的问题。
Mar, 2013
我们研究了如何在带有轨迹反馈的零和不完全信息博弈中学习 ε- 最优策略,通过应用自适应在线镜像下降算法,在信息集中使用逐渐减小的学习率和正则化损失,我们证明了该方法在高概率下能够保证收敛速度为~T^(-1/2),并且在理论上的最佳学习率和采样策略选择时,对于游戏参数的依赖性接近最优。为了实现这些结果,我们扩展了对 OMD 稳定性的概念,允许随时间变化的凸增量正则化。
Sep, 2023
本文研究动态环境下的在线凸优化问题,通过提出一种自适应学习的方法 Ader,利用专家跟踪算法结合一组专家来最小化动态遗憾,并扩展到可用于表征比较器的动态模型序列的情形。
Oct, 2018
本文介绍了基于在线凸优化的元学习问题,并提出了一种元算法,使得流行的基于梯度的元学习和传统的基于正则化的多任务转移方法之间的差距得以弥合。我们的方法是第一个在凸设置下同时满足良好的样本效率保证,并且具有随着任务相似度提高而改善的泛化界限,同时在现代深度学习体系结构和多任务环境下具有可伸缩性的方法。尽管算法很简单,但它匹配了下限,是任何此类参数传输方法在自然任务相似度假设下的性能的常数因子。我们在凸和深度学习设置下的实验验证和演示了我们理论的适用性。
Feb, 2019