- 基于状态分离的 SARSA:一种具有恢复奖励的实用顺序决策算法
在此研究中,我们提出了一种适用于概率回弹猎人问题的强化学习算法,称为状态分离 SARSA 算法 (SS-SARSA),它通过将回合视为状态来实现高效学习,并对奖励结构做出最小的假设,同时具有较低的计算复杂性。
- 扩散概率模型的渐进均方误差最优性
该研究论文通过严格证明特定 DPM 去噪策略在大量扩散步骤中收敛于均方误差最优条件均值估计器,为 DPMs 的理论理解做出了创新的贡献,并通过数值结果验证了理论发现。
- 用梯度下降学习联想记忆
研究关联记忆模块的训练动态,通过对数据分布和嵌入之间相关性的性质进行粒子系统的研究,揭示过参数化条件下 ' 分类边界 ' 呈对数增长、标记频率不平衡和相关嵌入导致的振荡瞬态阶段、过大步长引起的良性损失峰值以及欠参数化条件下交叉熵损失的副优化 - 关于联邦学习中叛变影响及其预防措施
该研究证明了参与者的永久叛变对最终模型的稳健性和泛化能力造成的不利影响,并且表明了当前联邦优化算法未能阻止这些有害的叛变。我们引入了一种具有理论保证的新型优化算法,在确保所有参与者达到一个有效解决方案的渐进收敛性的同时,预防了叛变,并通过数 - 遗憾匹配算法在博弈中的最后迭代收敛性质
研究了基于遗憾匹配(RM+)及其变种的算法在求解大规模两人零和博弈中的最优策略时的迭代收敛性,并通过数值实验证明了部分实际变种算法在简单的 3×3 游戏中无法保证迭代收敛。进一步证明了基于平滑技术的最新变种算法,如 extragradien - ADAM 在非凸背景下的常数步长收敛性:一个简单的证明
我们在非凸设置中对 ADAM 的常数步长版本进行理论分析,证明了步长达到几乎肯定的渐近收敛性所需的充分条件,并提供了在处理平滑的非凸函数时确定性 ADAM 达到近似临界性的运行时界限。
- 随机串行二次优化的迭代和乘子的几乎必然收敛
在这篇论文中,我们证明了一种基于随机梯度算法的随机 SQP 方法在原始迭代、拉格朗日乘子和稳定性测量方面具有几乎肯定的收敛性,通过使用算法运行期间计算的拉格朗日乘子的运行平均值来消除最新随机梯度估计的误差。我们还通过数值实验验证了理论保证的 - 利用二阶 Poincaré 不等式对高斯神经网络进行非渐近逼近
本文介绍了对高斯神经网络的一些非症态量化高斯逼近,用一些流行距离(如 $1$-Wasserstein 距离、总变分距离和 Kolmogorov-Smirnov 距离)量化逼近误差,这依赖于二阶高斯 Poincaré 不等式提供的非常紧密的逼 - ICML强化学习的鲁棒性策略梯度方法
开发了具有全局最优性保证和复杂度分析的政策梯度方法,用于处理模型不匹配下的鲁棒强化学习,提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法,并将方法推广到广泛的非模型设置下,提供了仿真结果证明了方法的鲁棒性。
- ICLR面向领域的对抗性训练:博弈视角
本文从博弈论的角度解释了域自适应训练中学习不变表示的支配性思路,并将梯度下降的优化器替换成高阶 ODE 求解器,为此得出渐近收敛保证。实验结果表明,与标准优化器相比,使用我们的优化器能够在半数训练迭代次数内,与最先进的域自适应方法相结合实现 - CD-split 和 HPD-split:高维度有效的共形区域分割
本研究探讨 CD-split 当中的调整参数以及其理论性质,最终通过介绍一种新的 CD-split 变体 HPD-split,实现更好的条件覆盖以及更小的预测区间。
- ICLR预测编码近似计算任意计算图上的反向传播
研究发现,通过局部学习规则,预测编码可以渐近(且实际上很快)地收敛到任意计算图上的精确反向传播梯度,这使得标准机器学习算法理论上可以直接用神经电路实现,从而为分布式神经形态结构的开发做出了贡献。
- 近端梯度时序差分学习:具有多项式样本复杂度的稳定强化学习
本文介绍了近端梯度时序差分学习,通过引入原始 - 对偶鞍点目标函数,提供了一种原则性的方式来设计和分析真正的随机梯度时序差分学习算法,并提出了一种名为 GTD2-MP 的加速算法,使用 “镜像映射” 来提高收敛速度并提高了在非现场学习中与现 - tfp.mcmc: 为现代硬件构建的现代马尔可夫链蒙特卡洛工具
本文介绍了 TensorFlow Probability MCMC 图工具包的设计和应用以及 MCMC 算法对于概率编程在渐近收敛性、稳定性和估计器方差界方面的重要性。
- 无梯度的零阶方法高效避免鞍点
本文研究了非凸优化中的无导数算法,利用有限差分器进行梯度逼近,最终提出了一种使用嘈杂的零阶方法来避免鞍点的算法,并在收敛速度上达到了与精确梯度接近的性能。
- 非凸随机优化中动量与异步加速权衡的研究
本文通过对简单但非平凡的非凸问题 - 流式 PCA 的分析,建立了异步动量随机梯度下降算法 (Async-MSGD) 在流式 PCA 中渐进收敛速率的扩散近似,结果表明异步和动量之间存在根本的权衡:为了通过异步获取收敛和加速,我们必须降低动 - 使用随机傅里叶特征在 RKH 空间中进行网络分布式在线学习
我们提出了一种新颖的扩散方案,用于在网络上进行基于内核的在线学习,通过使用 Random Fourier Features,将解决方案近似为固定大小的向量,并提供了渐近收敛和网络遗憾的限制条件。
- 随机梯度朗逊动力学的非凸学习:非渐近分析
使用加权运输成本不等式来量化 SGLD 在欧几里得 2 - 瓦瑟斯坦距离下收敛到随机分布的速率,并在非凸学习问题的背景下提供有限时间保证来找到两种风险的近似最小化器。
- NEXT: 网内非凸优化
本文提出了第一种算法框架,用于在具有时变(非对称)连接的多代理网络中进行非凸分布式优化,该方法利用了动态共识作为将计算分配给代理的机制,并将其定制为用于多个领域的凸和非凸问题,包括信号处理,通信,网络和机器学习。数值结果表明,新方法在凸和非 - AAAI深度神经网络的预条件随机梯度 Langevin 动力学
本研究提出并验证了使用自适应预处理与 SGLD 相结合的方法,在深度神经网络的训练中可以解决参数空间的病态和过拟合问题,并且在逻辑回归,前馈神经网络和卷积神经网络等模型上,表现出了最先进的性能。