weight matrices | BriefGPT - AI 论文速递

关键词weight matrices

搜索结果 - 14

学习过程中的随机权值矩阵动力学与 Dyson Brownian 运动
权重矩阵更新可通过戴森布朗运动描述，从而继承了随机矩阵理论的许多特征。我们将随机性程度与学习速度和小批量大小的比值相关联，提供了对先前猜测的缩放关系更健壮的证据。我们讨论了在得到的库仑气体分布中的通用和非通用特征，并明确在教师 - 学生模型
PDF4 days ago
特征修剪
我们介绍了一种叫做 eigenpruning 的方法，它从 LLM 中移除特定任务中的奇异值，以提高其性能。这种方法受到解释性方法的启发，旨在自动找到解决特定任务的模型的子网络。在我们的测试中，经过修剪的模型在性能上远远优于原始模型，而仅需
PDF4 months ago
OneBit: 极低位大型语言模型
该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销，并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能（至少达到非量化性能的 83%）。
PDF5 months ago
基于度的图神经网络节点分层
通过基于图节点的分层，将图神经网络 (GNNs) 中的节点分为低度和高度两组，并通过对每个组中的节点独立学习权重矩阵的方式进行简单修改，从而提高性能。
PDF7 months ago
transformers 逐渐提高排名学习
本文从简化的前提条件出发，理论证明了在 transformer 中，训练后的权重与初始权重之间的差异会在数量上逐渐增加。实验证明这种现象确实存在。
PDFa year ago
具有 Lipschitz 连续性的激活函数和可变宽度的深度神经网络的一致收敛性
该研究考虑了具有 Lipschitz 连续激活函数和可变宽度权重矩阵的深度神经网络，在权重矩阵和偏置向量的充分条件下，将深度神经网络的一致收敛性分析框架系数提供为无限层时，我们保证了其收敛于有意义的函数，本框架提供了有关宽度有界、无界和固定
PDFa year ago
通过语言类型分类探究单语 BERT 的语言学特征
本文采用了语言类型相似性的新视角，通过观察不同语言的 transformers 在各自的层次上是否出现了相似性，利用层内加权矩阵来测量相似度，发现句法类型相似性与中间层的权重相似性一致，这一发现证实了通过句法探针 BERT 获得的结果，从而
PDFa year ago
MM预测编码网络中分类准确度的预防措施
本文研究了 Predictive Coding Networks 训练时出现的中途准确度急剧下降现象，发现它是由于每一层收敛速度出现不平衡所导致的，通过正则化每层的权重矩阵或者限制权重范围可以解决这一问题。
PDF2 years ago
块状张量神经网络
本文提出了一种名为 BT-layers 的新的神经网络结构，使用低秩分块张量来近似权重矩阵，能够大幅缩小 DNN 的参数数量，同时保持或提高其表征能力。
PDF4 years ago
对抗生成网络中的模式崩溃问题进行光谱正则化
本论文提出了一种新的有效方法 —— 谱规则化（SR-GANs）来解决生成对抗网络（GANs）中的模式崩溃问题，并通过理论分析和大量实验结果展示了 SR-GANs 的有效性与优越性。
PDF5 years ago
在多项式时间内学习两层修正线性单元神经网络
该研究提出了一种基于高斯分布假设的算法，可以在多项式时间内准确地恢复两层神经网络的权重矩阵，即使在存在噪声的情况下。
PDF6 years ago
ECCV一种三边加权稀疏编码方案 —— 用于现实世界图像降噪
本研究提出了一种三边加权稀疏编码方案，用于从实际噪声的影响下提高图像去噪的效果，相比于之前的现有方法表现更为优异。
PDF6 years ago
Adafactor：自适应学习率与亚线性内存成本
该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
PDF6 years ago
ICLR从神经网络权重中检测统计相互作用
通过解释神经网络学习到的权重，我们开发了一种新的框架来检测前馈多层神经网络捕捉到的统计交互关系，能够达到与现有技术相当甚至更好的交互检测性能，证明了非线性激活函数和权重矩阵对输入特征之间的互动关系的作用和重要性。
PDF7 years ago