- PDMLP:基于补丁的分解 MLP 用于长期时间序列预测
我们的研究通过改进 Transformer 架构,提出了一种基于 Patch 机制和线性层的新型解决方案 PDMLP,用于长期时间序列预测任务,并在多个真实数据集上实现了最先进的结果。
- FinGPT-HPC: 高性能计算在金融应用中高效地预训练和微调大型语言模型
通过利用低秩结构以及量化参数,本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型,以实现金融应用,并取得了较快的速度和高模型压缩比,同时保持了很高的准确率。
- DYAD: 描述性而拒绝密度高效逼近线性神经网络层
DYAD 是一种基于特殊的近稀疏矩阵结构的快速和内存效率更高的线性层,它能够在不同尺度的基准测试中与普通线性层的性能相媲美,并在训练速度上比 GPU 上的普通线性层更快。
- Run LoRA Run:更快更轻的 LoRA 实现
LoRA 是一种通过引入低秩适配器到线性层中减少可训练参数数量的技术,本文提出了 RunLoRA 框架,用于高效实现 LoRA,从而显著提高神经网络训练和微调的速度。实验结果显示,在 Llama 系列模型中可以实现高达 17% 的加速。
- 通过逐层特征压缩和差异化理解深度表示学习
通过研究深度线性网络的中间特征,本文量化揭示了特征在层级表示中的演化规律,证明线性网络的每一层以几何速率压缩类内特征,与通过数据的层数线性关系的方式区分类间特征,这不仅在深度非线性网络中得到验证,而且在迁移学习中具有实际应用意义。
- 注意力透镜:一种解释机制注意头信息检索机制的工具
利用学习的注意力头特定转换,Attention Lens 将注意力头的输出转化为词汇标记,揭示了注意力头在语言模型中的高度特殊化角色。
- 使用 8 位浮点数进行大型语言模型的训练和推理
本文介绍了一种用于选择 FP8 线性层缩放的方法,基于动态更新权重、梯度和激活值的每张张量尺度,用于训练和验证 GPT 和 Llama 2 等大型语言模型。
- 点云网络:线性层参数数量的数量级改善
引入了 Point Cloud Network (PCN) 架构,通过对线性层的直接比较,提供经验证据证明 PCN 优于多层感知机 (MLP)。在 CIFAR-10 和 CIFAR-100 数据集的训练中,AlexNet-PCN16 在其线 - 线性神经网络层促进单 / 多指数模型学习
本文探讨了超参数神经网络中大于两层的隐式偏差。通过添加线性层,可以优化神经网络的表示成本,并提高实际子空间的准确匹配度与预测性能。
- ICLR不变和等变图网络
本文提供了对(超)图数据的所有置换不变和等变线性层的表征,并展示了它们的维度,并计算出这些层的正交基,包括对多图数据的推广。同时,在简单的深度神经网络框架中应用这些新的线性层,可以获得比之前的不变性和等变性基础更好的表现,并且可以实现任何消