- 离散折扣马尔可夫决策过程中熵正则化误差的尖锐估计
研究了无限时间跨度的离散折扣马尔可夫决策过程在熵正则化下引入的误差,证明了该误差在逆正则强度下按指数级别减小,在加权 KL 散度和值函数中均具有问题特定的指数。通过使用自然策略梯度方法中常见的黎曼度量来计算熵正则化马尔可夫决策过程的解与未正 - 自回归训练的变压器中的 Mesa - 优化:出现和能力
最近的研究表明,自回归训练的 Transformer 学习了一个内在的优化器,通过正向传播来优化一个内部目标函数,我们探索了一个通过梯度流进行自回归训练的一层线性因果自注意模型的非凸动力学,以填补该领域的知识空白,并验证了该模型能够实现内在 - 神经网络的近似和梯度下降训练
通过研究使用神经切向核(NTK)优化方法来训练的网络,本文对使用梯度下降训练的网络建立了类似的结果,以扩展逼近结果的平滑性,从而显示了这两种理论的兼容性。
- 无对抗训练的深度最大均值差梯度流
我们提出了一种梯度流程用于生成建模,通过将粒子从初始源分布传输到目标分布,其中粒子上的梯度场由噪声自适应最大均值差异 (MMD) 的梯度给出。我们称该方法为扩散 - MMD - 梯度流或 DMMD。该方法不需要对抗性训练,而与生成对抗网络 - 理解具有条件最优输运的无限深度和宽度的 ResNet 的训练
该研究探讨深度神经网络训练中的梯度流收敛问题,并提出了一种基于条件最优传输距离的训练模型,通过梯度流方程的良定性和多项式 - Lojasiewicz 分析证明了在适当的初始化条件下,梯度流可以收敛于全局极小值。
- 一层 Softmax 注意力梯度流的隐性正则化
研究一层 softmax 注意模型上指数损失的梯度流问题,通过分离地训练键值矩阵,我们在数据可分性假设下证明梯度流在达到最小损失值时,进一步隐式地最小化键值矩阵乘积的核范数,这种隐式正则化可以用关注权重的支持向量机(SVM)问题来描述。与先 - 多头 Softmax 注意力的上下文学习训练动态:出现、收敛和最优性
我们研究了多头 softmax 注意力模型在上下文学习多任务线性回归中的渐变流动动力学。通过适当选择初始化,我们确定了梯度流的全局收敛性。此外,我们证明了梯度流动力学中出现了有趣的 “任务分配” 现象,在这个过程中,每个注意力头专注于解决多 - 通过两参数模型和梯度流学习高维目标
通过梯度流(GF),我们研究了使用具有 W 个参数的模型来学习 d 维目标的理论可能性,在 W<d 的情况下。我们的主要结果表明,如果目标由特定的 d 维概率分布描述,则存在仅具有两个参数的模型,可以以任意高的成功概率学习这些目标。另一方面 - RMS: 冗余最小化点云采样用于退化环境下的实时姿态估计
提出了一种新的点云采样方法,通过降低点云中的冗余,减少在几何对称和无结构环境下实时估计漂移的影响。该方法在机器人的几何运动估计中最大化梯度流的熵,从而最小化点的冗余。实验结果表明,该采样技术在良好条件和几何退化环境下的准确度和速度优于现有方 - 通过梯度流学习高斯多指标模型
通过对高维高斯数据的多指数回归问题进行梯度流研究,我们提出了一种两时间尺度算法,该算法以非参数模型学习低维关联函数,实现了全局收敛性,并给出了与其关联的 “鞍点到鞍点” 动力学的定量描述。
- 有限维与无限维希尔伯特空间中凸函数的梯度流的定性差异
对于凸目标函数,研究了梯度流、加速梯度下降和随机梯度下降优化。我们证明了梯度流收敛缓慢(如果函数没有最小值),其超出能量在时间上是可积的,对于希尔伯特空间而言,这是最优的;在有限维空间中,存在凸函数的梯度流曲线,其减小速度比任何单调递减且在 - 对称单指标学习
在对称神经网络的设置下,通过对激活函数进行分析和对连接函数进行最大度数的假设,我们证明了梯度流可以恢复隐藏的预设方向,该方向在幂和多项式特征空间中表示为一个有限支持的向量,并刻画了适应我们设置的信息指数概念来控制学习的效率。
- 梯度下降训练的神经网络的近似结果
用梯度流训练具有近似保证的神经网络对目标进行测量,并在连续的带状 d 维单位球上用 L2 正规化,网络为全连接的常数深度和增加的宽度,基于神经切向核(NTK)对非凸倒数第二层的分析,呈现出欠参数化的状态以满足近似所需的自然平滑性假设。
- 两层 ReLU 网络中早期神经元对齐与小初始化
利用小初始化进行梯度流训练的研究,研究了两层 ReLU 网络在二元分类问题中的训练。首层神经元在早期对齐阶段尝试与正或负数据对齐,其方向动态分析得出了神经元达到良好对齐所需的时间上界。在对齐阶段后,损失函数以 1/t 速率收敛到零,首层权重 - AI 中的隐式正则化遇到优化中的广义逼近难度 —— 关于对角线性网络的尖锐结果
该研究探讨深度学习和人工智能中神经网络结构和梯度优化方法所施加的隐式规则化作用,并通过研究 Diagonal Linear Networks (DLNs) 的梯度流在过参数化回归设置下的隐式规则化,解释了泛化难度的相变现象与基础追踪优化问题 - 训练的 Transformer 学习上下文中的线性模型
研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
- 通过浅层 ReLU 网络学习神经元:相关输入的动力学和隐式偏置
通过训练一个从一个小初始值开始的任意宽度的一层 ReLU 神经网络来证明,对于学习单个神经元的基本回归任务,该网络能收敛于零损失并隐含有利于最小化网络参数秩的偏见。
- 基于最大熵的随机与符号密度估计
本文提出了基于最大熵的随机和符号密度估计方法,该方法通过符号梯度流从样本中恢复概率密度函数,进而通过构建由样本猜测符号表达式的梯度漂移扩散过程并解决用样本的矩所构建的线性方程组,找到猜测分布为最大熵形式时分布的参数,使用符号回归找到最优基函 - 使用本地线性模型的变分梯度下降
通过使用本地线性模型,提出了一种使用目标和粒子分布的样本计算梯度的新方法,可以替代需要计算目标得分函数的 Stein 变分梯度下降(SVGD)方法。
- 理解 ReLU 网络的多阶段优化动态和丰富非线性行为
本研究通过对 ReLU 神经网络的训练过程进行理论性分析,揭示了从随机初始化到最终收敛的整个优化过程,并发现了四个不同阶段,显示了一个从简单到复杂的总体趋势,此外还可以精确地识别和捕捉特定的非线性行为,如初始凝结、鞍点到高原动态、平台逃逸、