- 面向设备上高效增量学习的中心敏感核优化
为促进边缘智能在不断变化的环境中的发展,本文研究了在有限计算资源约束下的设备上的增量学习。与当前只关注高效训练而不考虑灾难性遗忘的方法不同,本文提出了一种简单而有效的面向边缘的增量学习框架,通过对神经网络的核心元素的知识强度的经验研究,发现 - 基于 Transformer 模型的低秩自适应 (LoRA) 的计算限制
通过在梯度计算中寻找低秩分解,我们研究了基于变换器模型的低秩适应(LoRA)更新的计算极限,证明了算法加速的可能性,并通过控制 LoRA 更新的计算项,基于 Strong Exponential Time Hypothesis (SETH) - 训练大型语言模型的梯度计算的细粒度复杂度
大型语言模型的训练可以通过前向计算和后向计算来实现,前向计算可以被视为注意力函数的评估,后向计算可以被视为梯度计算。本文证明了在某些参数范围内前向计算可以在几乎线性的时间内完成,但在其他参数范围内,除非流行的假设 SETH 是错误的,否则没 - DISTWAR:基于光栅渲染管线的快速可微分渲染
基于 DISTWAR 的软件方法在不同 iable 渲染工作负载上实现了平均 2.44 倍的显著加速(最高可达 5.7 倍)
- 基于物理系统辨识的多步预测的一次反向传播
提出了一个新颖的通用框架用于识别可能相互关联的系统,并保留其物理特性并提供多步预测的准确性,引入了基于反向传播的多步损失函数梯度计算的分析递归算法,直接为学习算法提供物理和结构洞察力。作为案例研究,测试了该方法用于从状态观测开始估计太空碎片 - 利用单个电路计算量子神经网络对所有参数的梯度
本文提出了一种仅需一个量子电路就能计算量子神经网络梯度的方法,该方法减少了电路深度和经典寄存器数量,同时解决了解决原方法中参数数量较多时所面临的电路调整和重复运行的问题,并在实验中展示了快速编译的优势和缩短总运行时间的速度提升。
- ACL推广基于梯度的解释性反向传播
通过使用半环,我们将反向传播算法推广到神经网络的梯度图的其他可解释统计量的高效计算,以识别深度神经网络中的重要特征、组件和自注意机制的路径。
- 正向梯度匹配反向传播?
本研究提出了一种使用反馈获得的局部辅助网络实现前向梯度方法的优化方案,能够显著改善标准计算机视觉神经网络中前向梯度方法中由步长难以猜测所需付出的代价。
- 具有 Riesz 核的生成式切片最大均值差流
本文介绍使用 Riesz 核函数可以解决 Maximum mean discrepancy (MMD) 流在大规模计算过程中的高计算成本问题,以及使用神经网络逼近 MMD 梯度流来训练生成模型的效率。
- ICLRDP-Adam:修正 Adam 二阶矩估计中的 DP 偏差
传统的 DP 与 Adam 优化器结合使用会在梯度计算中引入偏差,导致低方差参数更新的不一致性和优化性能下降,校正 DP 噪声引入的偏差可以显著提高 DP-Adam 的优化性能。
- AAAI带有群稀疏正则化器的快速正则化离散最优输运
该论文提出了一种基于 group-sparse 正则化方法的快速离散最优传输算法,该算法可以在保证准确率的前提下提高计算速度,并在无监督域适应等领域有广阔的应用前景。
- ICLRDropIT:为内存高效的深度神经网络训练丢弃中间张量
该研究提出了一种名为 DropIT 的方法,该方法可以通过删除中间张量元素来提高深度神经网络训练的效率和精确性。实验表明,DropIT 方法可以在较高的测试精度下,删除全连接和卷积层中多达 90%的中间张量元素,以及在不同任务中(例如分类、 - 通过平衡状态隐式微分训练脉冲神经网络
提出一种基于反馈脉冲神经网络的训练方法,该方法使用隐式微分计算参数的梯度,从而避免了无法微分的脉冲函数问题,并展示了在 MNIST, Fashion-MNIST, N-MNIST, CIFAR-10 和 CIFAR-100 数据集上测试结果 - 延迟微分神经网络
本文介绍了基于延迟微分方程(DDEs)的一种新型模型延迟微分神经网络(DDNN),其包括两种不同的架构。通过提供一种内存高效的方法计算梯度并反向传播至网络中,DDNN 显著减少了一些最近 ResNet 变体的参数数量并提高了图像分类数据集, - 自归一化流
本研究提出了自正则化流的概念,通过使用每一层中的学习近似反演,将昂贵的项替换为其梯度的自我正则化流,实现了流架构的培训,同时提供了高效的采样方法。实验表明,这些模型具有显著的稳定性,并优于在计算中限制函数的模型。
- 融合基于激活和时间的尖峰神经网络学习规则
在 Spiking Neural Networks (SNNs)训练的时间域梯度计算中,独立研究了两种方法:一种是计算与峰值激活变化相关的梯度(激活方法),另一种是计算与峰值时序变化相关的梯度(时序方法)。我们提出了一种将两种方法结合的新的 - 隐私随机凸优化:在线性时间的最优收敛率
本文提出两种新的不同 ially private 的方法,实现了凸优化的最优解,使用较少的梯度计算,同时需要对数据有轻度平滑性的假设。
- 随机微分方程的可扩展梯度
本文提出一种利用伴随灵敏度方法计算随机微分方程梯度的方法,结合高阶适应性求解器,实现快速、内存高效的梯度计算。并将该方法应用于基于神经网络的随机动力学拟合中,表现出竞争性的性能。
- 分布式批量梯度计算的拜占庭鲁棒非凸 SVRG 算法
本研究考虑了在敌对环境下最小化一个期望函数的非凸分布式随机优化问题,在此基础上,提出了一种机制,通过使用一种新型的拜占庭过滤规则,可以保证算法收敛,并且能够捕捉网络中破损节点所带来的影响。
- AutoAssist: 加速深度神经网络训练的框架
本文提出 AutoAssist 框架,使用实例减少操作来加速训练深度神经网络,并通过设计一个轻量级的 Assistant 网络对 Boss 网络进行辅助来降低训练时间,实验结果表明,AutoAssist 在图像分类和翻译数据集上表现出色。