BriefGPT.xyz
Ask
alpha
关键词
implicit gradient descent
搜索结果 - 3
训练两层物理引导神经网络的隐式梯度下降收敛性
本文提供了用于训练过参数化的两层物理信息神经网络的隐性梯度下降法的收敛性分析,证明了常见的平滑激活函数(如 sigmoid 函数、softplus 函数、tanh 函数等)的 Gram 矩阵是正定的。通过过参数化,随机初始化的隐性梯度下降法
→
PDF
3 days ago
基于 SVD 的加权剪枝提升上下文学习性能:理论视角
基于 Transfomer 的预训练大型语言模型(LLM)展示了令人惊叹的上下文学习能力(ICL)。在本文中,我们展示了基于 SVD 的权重剪枝可以增强 ICL 性能的有趣现象,并且在深层剪枝权重通常导致浅层性能的更稳定的改善。然而,这些发
→
PDF
a month ago
随机反向欧拉算法:一种用于 $k$ 均值聚类的隐式梯度下降算法
本文提出了一种用于经典 K 均值问题的隐式梯度下降算法:通过随机固定点迭代解决,当前迭代的平均固定点轨迹传递到下一梯度步骤,数值实验表明该算法相对于 K 均值算法在聚类结果和每次迭代的目标函数上有所提升,更为稳健。与最近的 Entropy-
→
PDF
7 years ago
Prev
Next