- 使用随机梯度下降匹配 k - 稀疏奇偶问题的统计查询下界
在本文中,我们使用随机梯度下降(SGD)在两层全连接神经网络上解决了 k - 奇偶问题。我们展示了 SGD 能够以样本复杂性 O (d^(k-1)),使用 2^(Θ(k)) 个神经元有效地解决 k - 稀疏奇偶问题,从而与统计查询(SQ)模 - 具有有限数据保留的在线算法
引入带有数据保留约束条件的在线算法模型,在多维均值估计和线性回归问题中展示了多维随机子集和对抗噪声模型在模拟随机梯度下降的进展方面的最新进展。
- 新的随机梯度下降的对数步长
本文提出了一种利用新的对数步长的随机梯度下降(SGD)方法的新型热重启技术,对于平滑和非凸函数,我们建立了 SGD 的 O(1/√T)收敛速度。我们对 FashionMinst,CIFAR10 和 CIFAR100 数据集进行了全面的实现, - 使用线搜索方法加速 Transformer 微调的收敛
本研究成功将线搜索方法应用于新颖且受欢迎的 Transformer 架构和自然语言处理数据领域,通过将网络架构细分为合理的单元并在这些局部单元上进行线搜索,将 Armijo 线搜索与 Adam 优化器结合,其优化方法在小数据集或小训练预算的 - 无模型熵正则化逆强化学习算法的收敛性
给定一个专家示范数据集,逆向强化学习(IRL)旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励,并采用随机软策略迭代算法更新策略,假设可以访问一个生成模型,我们证明了我 - 通过随机递归方程分析随机梯度下降的重尾特性
在这篇论文中,我们回答了引用论文中的几个未解决问题,并应用不可约 - 近似 (i-p) 矩阵的理论来扩展他们的结果。
- 循环对数退火作为学习率调度器
学习率调度器是在模型训练过程中变化搜索步长的预定指令集。本文介绍了一种新的对数方法,通过随机梯度下降对步长进行严格的重新启动。循环对数退火更积极地实施重新启动模式,可能在在线凸优化框架上允许更贪婪的算法的使用。该算法在 CIFAR-10 图 - 使用预处理改进最小二乘问题的隐式正则化 SGD
通过对预处理的随机梯度下降(SGD)和岭回归的综合比较研究,我们建立了预处理的 SGD 和岭回归的过度风险界限,并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归,从而展示了预处理的 SGD 的增强正则化效果。
- 深度神经网络解决方案是否形成星型空间?
该研究提出了一种新的算法 ——Starlight 算法,该算法可以找到给定学习任务的星型模型,并验证星型模型与其他独立找到的解之间的线性连接。此外,研究表明星型模型可以提供更好的贝叶斯模型平均的不确定性估计。
- MM关于随机梯度方法的最终迭代收敛性
用 “随机梯度下降”(SGD)而无需替换的 “洗牌梯度方法”,基于曲率刻画关于目标值的收敛速度,证明其对于目标值的最优性。
- 用于凸优化的 Shuffling Momentum Gradient 算法
本文通过对分类的动量渐变法的分析,对有限和强凸优化问题进行了研究,并取得了与现有文献中最好成绩相匹配的结果。
- 重尾扰动下的噪声 (S) GD 的差分隐私
通过向随机梯度下降算法的迭代中注入重尾噪声,可以实现隐私保护,并且与高斯分布相比,重尾噪声具有相似的差分隐私保证,为一种可行的选择。
- 异质性对于不变性和因果性的隐性偏见
从大规模语言模型、因果关系、以关联为导向的训练、数据异质性和随机梯度下降等方面,揭示了隐含的偏差存在。
- 带有 Massart 噪声的流式线性和修正线性系统的随机梯度下降
提出了 SGD-exp,这是一种用于线性和 ReLU 回归的随机梯度下降方法,适用于完全流式设置下的 Massart 噪声(对抗性半随机破坏模型)。我们展示了 SGD-exp 对真实参数的新近线性收敛保证,在高达 50% 的 Massart - 深度学习的超出单一模型视图:随机优化算法的优化与泛化能力
本文采用一种新方法,通过估计随机优化器的稳态分布,从多条优化轨迹的集合中综合评估,旨在解决当前对深度学习优化算法有效性的理解不完整的问题。通过合成函数和计算机视觉、自然语言处理等领域的实际问题的评估,我们着重在统计框架下进行公平的基准测试和 - 高维变分推理的稳定正则流训练
通过使用软阈值和双射软对数变换方法,本文提出了稳定训练 Real NVPs 并在高维情景下实现更准确的后验近似的方法。
- 使用常数和衰减的学习率的随机梯度下降的迭代和随机一阶预言机复杂度
使用常数或递减的学习率的随机梯度下降法(SGD)与关键的批次大小能够最小化深度学习中的非凸优化的随机一阶复杂性,并且与现有的一阶优化器相比较具有实用性。
- 对角化 SGD:通过参数重设和平滑实现快速与收敛的非可微模型 SGD
介绍了一种针对非可微模型的新型随机梯度下降(SGD)方法,利用渐进平滑逼近方法提高了渐进平滑逼近的精度,并证明了收敛到原始目标的固定点,在实验中表现出了简单、快速、稳定的特点,并实现了工作归一化方差的数量级降低。
- 高斯输入下学习子空间稀疏多项式的平均场分析
我们研究了使用随机梯度下降和两层神经网络学习子空间稀疏多项式的均场流动,其中输入分布为标准高斯分布,输出仅依赖于将输入投影到低维子空间上。我们提出了 Abbe 等人(2022)中合并阶梯特性的无基础推广,并建立了 SGD 可学习性的必要条件 - 含噪声 SGD 中的隐式偏差:与差分隐私训练的应用
使用小批量随机梯度下降(SGD)训练深度神经网络(DNNs)相对于大批量训练具有卓越的测试性能。这种随机梯度下降的特定噪声结构被认为是导致这种隐式偏差的原因。使用差分隐私(DP)确保 DNN 的训练时,DP-SGD 会向截断梯度添加高斯噪声