linear layers | BriefGPT - AI 论文速递

关键词linear layers

搜索结果 - 10

PDMLP：基于补丁的分解 MLP 用于长期时间序列预测
我们的研究通过改进 Transformer 架构，提出了一种基于 Patch 机制和线性层的新型解决方案 PDMLP，用于长期时间序列预测任务，并在多个真实数据集上实现了最先进的结果。
PDFa month ago
FinGPT-HPC: 高性能计算在金融应用中高效地预训练和微调大型语言模型
通过利用低秩结构以及量化参数，本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型，以实现金融应用，并取得了较快的速度和高模型压缩比，同时保持了很高的准确率。
PDF4 months ago
DYAD: 描述性而拒绝密度高效逼近线性神经网络层
DYAD 是一种基于特殊的近稀疏矩阵结构的快速和内存效率更高的线性层，它能够在不同尺度的基准测试中与普通线性层的性能相媲美，并在训练速度上比 GPU 上的普通线性层更快。
PDF7 months ago
Run LoRA Run：更快更轻的 LoRA 实现
LoRA 是一种通过引入低秩适配器到线性层中减少可训练参数数量的技术，本文提出了 RunLoRA 框架，用于高效实现 LoRA，从而显著提高神经网络训练和微调的速度。实验结果显示，在 Llama 系列模型中可以实现高达 17% 的加速。
PDF7 months ago
通过逐层特征压缩和差异化理解深度表示学习
通过研究深度线性网络的中间特征，本文量化揭示了特征在层级表示中的演化规律，证明线性网络的每一层以几何速率压缩类内特征，与通过数据的层数线性关系的方式区分类间特征，这不仅在深度非线性网络中得到验证，而且在迁移学习中具有实际应用意义。
PDF8 months ago
注意力透镜：一种解释机制注意头信息检索机制的工具
利用学习的注意力头特定转换，Attention Lens 将注意力头的输出转化为词汇标记，揭示了注意力头在语言模型中的高度特殊化角色。
PDF8 months ago
使用 8 位浮点数进行大型语言模型的训练和推理
本文介绍了一种用于选择 FP8 线性层缩放的方法，基于动态更新权重、梯度和激活值的每张张量尺度，用于训练和验证 GPT 和 Llama 2 等大型语言模型。
PDF9 months ago
点云网络：线性层参数数量的数量级改善
引入了 Point Cloud Network (PCN) 架构，通过对线性层的直接比较，提供经验证据证明 PCN 优于多层感知机 (MLP)。在 CIFAR-10 和 CIFAR-100 数据集的训练中，AlexNet-PCN16 在其线
PDF9 months ago
线性神经网络层促进单 / 多指数模型学习
本文探讨了超参数神经网络中大于两层的隐式偏差。通过添加线性层，可以优化神经网络的表示成本，并提高实际子空间的准确匹配度与预测性能。
PDFa year ago
ICLR不变和等变图网络
本文提供了对（超）图数据的所有置换不变和等变线性层的表征，并展示了它们的维度，并计算出这些层的正交基，包括对多图数据的推广。同时，在简单的深度神经网络框架中应用这些新的线性层，可以获得比之前的不变性和等变性基础更好的表现，并且可以实现任何消
PDF6 years ago