利用反向对齐特征更新引导深度特征学习

Nov, 2023

利用反向对齐特征更新引导深度特征学习

Steering Deep Feature Learning with Backward Aligned Feature Updates

Lénaïc Chizat, Praneeth Netrapalli

TL;DR通过研究深度学习和超参数对特征学习的影响，本文提出了特征更新与反向传播之间的对齐概念，并研究了随机初始化下的对齐、ReLU MLPs 和 ResNets 的特性。

Abstract

deep learning succeeds by doing hierarchical feature learning, yet tuning hyper-parameters (HP) such as initialization scales, learning ra

deep learning hyper-parameters feature learning alignment relu mlps

发现论文，激发创造

反向特征校正：深度学习如何进行深度学习

本文研究如何通过层次学习实现深度神经网络对于复杂任务的高效学习，并提出了基于反向特征修正的新原则。在技术上，研究表明使用 SGD 算法的 ω(1) 层神经网络可以在多项式时间复杂度内，并通过表示为二次函数复合的 ω(1) 层来学习满足特定条件的函数类，没有已知的其他算法可在同样时间内实现。

Jan, 2020

深度卷积网络中的反馈对齐

研究深度人工神经网络中的反向传播学习算法与大脑神经元突触可塑性规律的类比，介绍了不依赖于对称前向和后向突触权重的算法，提出通过加强权重符号一致性的反馈对准法的修改，可以实现与反向传播法相当的性能。这些研究结果表明，促进前向和反馈权重对准的机制对于深度网络的学习是至关重要的。

Dec, 2018

直接反馈对齐在现代深度学习任务和架构中的拓展

本文探讨了替代反向传播算法的方案，研究了直接反馈对神经视图合成、推荐系统、几何学习和自然语言处理的适用性，并发现该方案可以成功训练各种现代深度学习架构，其性能接近于微调的反向传播，支持在没有权重传输的情况下解决具有挑战性的任务。

Jun, 2020

两层网络训练中的早期对齐是双刃剑

使用一阶优化方法训练神经网络是深度学习实验成功的核心。在小的初始化下，训练动力学的早期阶段会导致神经元朝关键方向对齐，从而引发网络的稀疏表示，这与渐近梯度流的隐式偏差相关。然而，这种稀疏诱导的对齐会导致在最小化训练目标上面临困难，我们还提供了一个简单的数据示例，说明过度参数化的网络无法收敛到全局极小值点，而只能收敛到一个虚假的稳定点。

Jan, 2024

特征学习的高维渐近性：一个梯度步骤如何改善表示

研究两层神经网络中第一梯度下降步骤，证明第一梯度更新中存在一个秩为 1 的 “峰值”，可以使第一层权重与教师模型的线性部分对其，并探索学习率对特征的影响，得出即使一步梯度下降也能带来显著优势的结论。

May, 2022

深度神经网络中的逐层反馈对齐保持不变

本文揭示了支持反馈对齐学习动力学的一组守恒定律，揭示了反馈对齐与梯度下降之间的有趣类比，挑战了这些学习算法根本不同的流行说法，并表明这些守恒定律阐明了 ReLU 网络中反馈矩阵的逐层对齐的充分条件，这将使得使用反馈对齐训练的两层线性网络收敛到最小化范数的解决方案。

Jun, 2023

通过训练表示对齐学习紧凑特征

本研究提出了一种名为 In-Training Representation Alignment (ITRA) 的方法，通过匹配损失函数，显式地对两个不同 mini-batch 的 feature distribution 进行校准，从而稳定随机梯度下降（SGD）中高方差的情况，并提出了其对特征表示学习的良好效果的分析，大规模实验表明该方法在图像和文本分类方面优于传统方法。

Nov, 2022

直接反馈对齐提供深度神经网络的学习

使用反馈定向方法进行神经网络训练的简单方法能够在卷积网络和深度网络中实现零训练误差，而不需要成对的权重，是迈向生物可行机器学习的一步。

Sep, 2016

两层神经网络中一次梯度步骤的非线性特征学习理论

通过分析两层全连接神经网络中梯度下降和岭回归的步骤，证明采用学习率随样本大小增长的训练方法可以引入多个一阶秩分量，分别对应特定的多项式特征，进而改善神经网络的学习效果。

Oct, 2023

深度神经网络中特征和懒惰训练的解耦

该论文针对深度学习的 Neural Tangent Kernel 极限和 Mean-Field 极限进行了研究，发现不同的调参可以使得网络在 lazy training 和 feature training 两种状态下表现不同，并提出了一种中间状态下集合平均方法可以提高性能。

Jun, 2019