- 在线牛顿方法在博弈凸优化问题中的应用
零阶强化学习的计算方法在对抗性和随机性设置中的性能界限及其与维度的关系
- 高维分析揭示保守的锐化和随机稳定边缘
在全批量情况下,训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中,特征值的增长速度较慢,我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释,它在小批量 - 具有一般价值函数的上下文多项式罗吉特赌博机
本研究考虑了具有广义价值函数类的上下文多项式逻辑带有多臂赌博机,并在线性情况下提出了一套算法,其表现优于现有方法,具有计算效率高、无维度遗憾界限和处理敌对环境和奖励的能力等优势。
- ICLR无界平滑的双层优化:一种新算法和收敛性分析
设计了一种名为 BO-REP 的新的双层优化算法,用于解决具有潜在无界平滑性的神经网络在双层优化问题中的挑战。证明了在随机环境下,该算法需要大约 1/ε^4 次迭代来找到一个 ε- 稳定点,结果与有界平滑度设置和没有均方平滑性的随机梯度的最 - 线性马尔可夫决策过程的速率最优策略优化
在线循环线性马尔可夫决策过程中的遗憾最小化与策略优化方法相关联,并且在随机情境下使用自调整速率达到最佳收敛速度,为该领域建立了最佳收敛速度的算法。
- 通过弃权实现序列预测中的对抗韧性
本研究提出一种介于纯随机和完全对抗的序列预测模型,可在不损失成本的情况下避免对注入干扰项的干净标签对抗(或超出分布)示例进行预测;同时使用 VC 维度来量化不确定性,且不需要访问条件分布。
- UAdam: 非凸随机优化的统一 Adam 型算法框架
我们介绍了一个统一的 Adam 型算法框架 (UAdam),并在非凸随机设置下对其进行了收敛性分析,证明 UAdam 以 $\mathcal {O}(1/T)$ 的速率收敛于传统的 Adam 型算法 (如 NAdam、AMSGrad、Ada - ICML同时学习具有一般图反馈的随机与对抗赌博机
本文研究了在线学习中使用图形反馈的问题,提出了一种新的权衡机制,能够同时在随机环境和对抗环境取得最优结果,具有很好的推广性。
- 块策略镜像下降
本文提出了一种新的策略梯度方法,即基于块的策略镜像下降(BPMD)方法,用于解决一类带有(强)凸正则化器的强化学习(RL)问题,通过部分更新规则执行已采样状态上的策略更新,从而实现了每次迭代计算代价的降低,并且在分析多种采样方案时达到快速的 - 一种用于相干非单调变分不等式的乐观双外推方法
本文提出一种名为乐观双重外推的优化算法,用于解决训练生成式对抗网络中的非单调变分不等式问题,在不同相容的非单调条件下,该算法可收敛于一个强解,且当存在弱解和 Σ- 弱解时,该算法的收敛速度分别为 O (1/ε²) 和 O (log (1/ε - 约束优化中逃离鞍点
本研究研究了非凸优化中的鞍点问题,提出了一个通用的框架,该框架可在多项式时间内以失配系数 $\rho<1$ 的速度收敛到问题的二阶稳定点。此外,还将研究结果扩展到了随机情形下,以更好地适应实际问题。
- 随机粒子优化采样与非渐进收敛理论
该论文探讨了基于粒子最优化的采样技术和 Stein 变分梯度下降算法的理论缺陷,提出了注入随机噪声的 SPOS 算法,并第一次为相关的 SPOS 框架(涉及 SVGD)开发了非渐近收敛理论,以粒子数和迭代次数的 1-Wasserstein - 多用户多臂老虎机用于协调频谱接入
提出了两种多用户多臂赌博机算法框架,分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下,通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误,并能够处理用户数量随时间改变的动态问题。
- 双层规划的近似方法
本文研究一类内部目标函数为强凸函数的双层规划问题,给出了一种求解该问题的逼近算法,并在外部目标函数为不同凸性的情况下提供了其有限时间收敛分析。同时,提出了一种加速变体以提高收敛速度,并推广了结果到只有有限的信息可用的随机情况下。本文是第一次 - 加速随机幂迭代
我们提出了一种简单的变种 Power Iteration 方法,使用动量项,既实现了最优的 PCA 速率和迭代复杂度,也适用于随机数据集,并利用现代方差缩减技术,加速了很多非凸优化问题。
- 在线到线下转化,普适性和自适应小批量大小
本文提出了一种基于离线方法的凸优化方法,通过查询梯度谐和和的方法实现自适应保证,在平滑和非平滑条件下都能实现快速收敛,同时还可以推广到随机梯度下降算法中,提供了一种根据梯度幅值自适应选择 minibatch 大小的方法。
- 网络学习中的弃权技术
在在线学习中,我们研究了算法可以弃权不进行预测的关键问题。我们展示了现有的在线算法和保证如何适应这个问题,并且给出了一个新算法 UCB-GT,它利用了历史数据并适应于随时间变化的反馈图。
- ICML保守型赌徒
研究一种新颖的多臂赌博问题,旨在解决公司在探索最大化收益新策略的同时,保持其收益在固定时间内持续增长的挑战。 通过提出自然而又新颖的策略来维护限制,我们在随机和对抗设置下分析了限制维护的代价。
- 基于条件梯度的复合非线性和随机优化方法
本文提出了一种条件梯度类型(CGT)方法,用于解决一类由(弱)光滑项和(强)凸正则化项组成的复合优化问题,该方法在实现时不需要额外计算(子)梯度且具有较优度收敛率,并且还将这些方法推广到了随机设置中。
- 未知高斯过程超参数的贝叶斯优化理论分析
在随机环境下,通过使用高斯过程和未知核超参数的贝叶斯优化方法,我们得出了一个对于预期改善收集函数和亚高斯观察噪声的累积遗憾界限,为我们提供了关于如何设计超参数估计方法的指导,并通过简单模拟说明了遵循这些准则的重要性。