- LaMDA:通过频谱分解的低维度调整进行大模型微调
通过光谱分解低维适应性的大型模型微调,LaMDA 可以在减少可训练参数和峰值 GPU 内存使用的同时,达到与现有替代方案相当甚至更好的性能。
- 硬件感知并行提示解码用于 LLM 推理的内存高效加速
提出一种新颖的并行提示解码方法,仅需 $0.0002$% 的可训练参数,在 16 小时内可在单个 A100-40GB GPU 上进行高效训练,大大提高多令牌生成的接受率以及未来时间步骤的输出生成速度。
- ICML离散傅里叶变换的参数高效微调
通过 Fourier 变换进一步压缩可训练参数,用于精细调整基础模型,以达到与 LoRA 相当甚至更好的性能表现,但参数数量更少。
- 利用 NEON 在函数空间中的复合贝叶斯优化 -- 神经确知算子网络
运算符学习领域的研究正在快速发展,在这篇论文中,我们介绍了一种名为 NEON(神经认识运算符网络)的架构,用于使用单个运算符网络骨干生成具有不确定性的预测,其可训练参数比具有相似性能的深度集合模型小数个数量级。通过在玩具和真实场景上与其他最 - 通过表征编辑提高微调中的参数效率
Parameter Efficient Fine-Tuning (PEFT) 方法和 Representation EDiting (RED) 方法是解决神经模型微调中的可调超参数选择和可训练参数数量减少的关键研究领域和主题,通过对多种模型 - 基于 ConvLoRA 和 AdaBN 的领域自适应方法
使用 Convolutional Low-Rank Adaptation(ConvLoRA)和 Adaptive Batch Normalization(AdaBN)提出了一种简单且有效的领域自适应方法,能够减少可训练参数并在测试加拿大卡尔 - 基于记忆的时序提示交互方法用于文本 - 图像分类
我们提出了一种受人类记忆策略启发的新型基于提示的多模态交互策略,通过在中间层上相互作用提示向量以实现足够的信息交换,同时具有压缩的可训练参数和内存使用,取得了具有竞争力的结果。
- 动态层绑定用于参数高效的 Transformer
通过强化学习在训练期间动态选择层并将它们绑定在一起,我们可以减少深度转换网络中可训练参数的数量。实验评估表明,相对于基准转换模型,我们的模型在困惑度方面略有改善,并且大大减少了可训练参数的数量。特别地,在训练期间的内存消耗比传统训练方法低一 - 更强,更少,更优:利用视觉基础模型进行领域通用语义分割
该研究中,我们首先评估和利用各种视觉基础模型(Vision Foundation Models)在域泛化语义分割(Domain Generalized Semantic Segmentation)中的应用。我们引入了一种名为 Rein 的强 - Run LoRA Run:更快更轻的 LoRA 实现
LoRA 是一种通过引入低秩适配器到线性层中减少可训练参数数量的技术,本文提出了 RunLoRA 框架,用于高效实现 LoRA,从而显著提高神经网络训练和微调的速度。实验结果显示,在 Llama 系列模型中可以实现高达 17% 的加速。
- VeRA:基于向量的随机矩阵适应
使用单一配对低秩矩阵并学习小的缩放向量,将低秩适应 (LoRA) 方法的可训练参数减少至原有的十分之一,且保持相同性能,用于缓解大型语言模型训练过程中的存储挑战。
- 具有参数高效迁移学习的通用度量学习
我们引入了一种名为通用度量学习(UML)的新型度量学习范式,它能够学习到能够捕捉多个数据分布关系的统一距离度量。通过使用预训练模型和两个额外的模块,即随机适配器和提示池,我们提出了一种名为参数高效通用度量学习(PUMA)的方法来解决不平衡数 - 高效的 ResNets: 残差网络设计
本研究设计和训练了一个大小不超过 500 万可训练参数的修改版 ResNet 模型用于 CIFAR-10 图像分类,通过一些训练策略和合适的超参数,最终测试准确率达到 96.04%。
- CVPRVoP: 跨模态检索的文本 - 视频协同提示调整
本文提出 VoP 框架,结合视频和文本提示来提高文本 - 视频检索任务的效率和性能,相比使用 full fine-tuning 更加高效,在 5 个文本 - 视频检索基准上平均能够获得 1.4% 的 R@1 增益,并且仅需要 6 倍于 fu - MM光纤传输均衡的低复杂度卷积神经网络
本文提出了一种卷积神经网络来缓解纤维传输效应,其可减少可训练参数五倍并比替代均衡器的 MSE 在复杂程度相当的条件下获得 3.5 dB 的改进。
- 基于神经网络的 LDPC 解码器训练配方
本论文提出了一种新的方法,利用深度学习框架确定传递消息的不同边的可训练参数,重点是减少可训练参数的数量并强调其位置。经过广泛的模拟实验,论文表明这种方法可以提供高质量的训练数据,并展示了训练损失和解码指标之间的强正关系。
- ACLAdapterBias:自然语言处理任务中适配器的参数效率高、与特定 Token 相关的表示偏移
本研究提出了 AdapterBias 作为一种简单高效的适配器结构,通过向变压器层的隐藏输出增加一个与令牌有关的偏移,只需使用一个向量和一个线性层就可以适应下游任务。.AdapterBias 可以显著减少可训练参数,同时与微调预训练模型相比 - 生成对话中的样式控制
本文将三个先前提出的可控生成结构应用于开放领域对话生成,控制生成的样式以匹配大约 200 种可能的样式之一,并比较它们各自的性能和权衡,展示它们如何提供对现有对话数据集的深入洞察,以及如何生成各种样式的会话回复
- 梯度下降法在实用规模的可推广深度神经网络中寻找全局最小值
我们在本文中理论上证明了,在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中,梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度,而不需要以前的理论。此外,我们证明了网络的大小呈线性增长是最优的速率,除非是对数因 - CVPRLBVCNN: 基于本地二值体积卷积神经网络的图像序列面部表情识别
本文提出了一种新的 3D 卷积神经网络,使用局部二进制体积层 (LBV) 来识别表情,可以在不使用面部标记的情况下进行训练,并在多个数据集中取得了与基于特征点或不基于特征点的模型相当的结果。此外,与传统的 3D 卷积层相比,LBV 层使用可