- 将先见之明修剪与零阶优化结合:低内存设备上高效的联邦学习
基于神经切向核(NTK)的联邦预见修剪方法可以与联邦 BP-Free 训练框架无缝集成,减少内存使用并提高性能。
- TinySeg:用于小型嵌入式系统上图像分割的模型优化框架
TinySeg 是一个优化模型的框架,可以在小型嵌入式系统中实现内存高效的图像分割,通过分析目标模型中张量的生命周期并识别长期存在的张量,利用张量溢出和合并提取技术将目标模型的峰值内存使用率降低了 39.3%。
- Lightplane: 高可扩展的神经三维场组件
现代 3D 研究中,特别是在重建和生成方面,严重依赖于 2D 图像输入或监督。然而,目前这些 2D-3D 映射的设计占用大量内存,对现有方法构成了重大瓶颈,并阻碍了新的应用。为此,我们提出了一对高度可扩展的用于 3D 神经场的组件:Ligh - 参数高效微调:跨应用全面分析
评估了 Parameter Efficient Fine-Tuning 方法在深度学习中的有效性,以减轻计算负担、提高训练速度和降低内存使用,从而推动深度学习的更广泛应用和模型优化的创新。
- 探索浏览器内深度学习推理对用户体验质量和性能的影响
深度学习在 Web 应用中的 “浏览器内推理” 方法正在被广泛应用,然而该方法的实际性能以及对用户体验质量(QoE)的影响尚未得到很好的了解。本研究通过对广泛使用的 9 个深度学习模型在 50 个流行的 PC Web 浏览器上的测试,提出了 - KIVI:一种用于 KV 缓存的无需调节的非对称 2 位量化
通过深入研究大语言模型中关键 - 值缓存的元素分布,我们提出了一个调优无需任何参数的 2 位关键 - 值缓存量化算法,名为 KIVI。KIVI 可以使 Llama (Llama-2), Falcon, 和 Mistral 模型在几乎不减少质 - Dr2Net:动态可逆双重残差网络用于高效调优
提出了一种称为 Dr²Net 的新型网络结构,通过减少内存消耗来对预训练模型进行微调,达到与传统微调相当的性能但显著减少了内存使用量。
- 梯度压缩的收缩误差反馈
提出了一种名为收缩误差反馈(ConEF)的通信高效方法,通过利用有偏差和可全局聚合的梯度压缩实现通信效率,并在各种学习任务中对 ConEF 进行了经验证实,节省了 EFSGD 中 80%-90%的额外内存,同时实现了 1.3x-5x 的 S - 深度神经网络中激活空间的高效表示
提出了一个模型无关的框架来创建深度神经网络中激活的表示,使用节点特定的直方图来计算观察到的激活的 p 值,从而减少内存使用并解决隐私问题。
- Side4Video:用于内存高效的图像到视频迁移学习的时空边缘网络
提出了一种名为 Side4Video 的轻量级空时支路网络,用于在视频理解中对大型图像模型进行内存高效微调,具有比之前的适配器方法减少 75% 内存使用的能力,并且在各种视频数据集上实现了卓越的性能。
- SOccDPT:在内存限制下训练的基于密集预测变换器的半监督三维语义占用
我们提出了 SOccDPT,一种从单目图像输入中使用密集预测变换器进行 3D 语义占用预测的内存高效方法。我们通过对印度行驶数据集和班加罗尔行驶数据集等无结构数据集进行训练,解决了现有方法在结构化交通数据集训练时的局限性。我们的半监督训练流 - 使用词汇缩减的大型语言模型推理
大型语言模型的推理对计算和内存要求较高,因此我们通过词汇筛选改进了其性能,可以显著减少内存使用并提高生成速度。然而,我们也发现了此类词汇选择方法的局限性,并提出了未来研究的方向。
- 神经网络的模块化训练:最小化移动方案
通过引入一种受分布空间渐进运动方案启发的模块化正则化方法(TRGL),我们解决了贪婪模块化训练中早期层过拟合、深层停止增加测试准确性的问题,并在理论上证明这种方法导致的贪婪模块化是规则的,并且能逐步解决任务。实验证明,在我们添加正则化方法时 - 通过动态嵌入修剪对预训练语言模型实现令人烦恼的简单记忆效率
使用预训练语言模型(PLMs)的广泛内存占用可阻碍其在内存受限环境(如云环境或设备上)的部署。本文提出了一种简单而有效的方法来减小嵌入矩阵的内存占用,从而在保持下游任务性能的同时更有效地利用计算资源。
- 混合精度加速 Fourier 神经算子
通过对 Fourier neural operator(FNO)进行全精度和混合精度训练的内存和运行时时间进行分析,研究混合精度训练的数值稳定性,并设计了一种训练程序,有效减少了训练时间和内存使用,而在准确性上几乎没有减少,适用于 Navi - 高效光束树递归
提出了一种能够大幅减少 BT-RvNN 内存使用量的策略,并将其转化成序列上下文化工具,从而在 ListOps 中创造了新的最先进性能。
- 逻辑谜题中的非对称性探究:利用 Zero-suppressed Decision Diagrams 进行符号化模型检验的动态认知逻辑
本研究比较了不同 Zero-suppressed Decision Diagrams 变体在多智能体系统的符号编码中的记忆使用情况,结果表明使用合适的 ZDDs 可以显著减少 BDDs 的记忆使用量。
- 用于相关聚类的单遍基准算法。保持简单!
本文介绍了 Correlation Clustering 中使用的 Pivot 算法的改进版本,并通过在单通道中使用 O (n/epsilon) 字的内存实现了 (3+epsilon) 近似,并与以前的结果进行了比较。
- QLoRA: 基于量化的 LLMs 高效微调
QLoRA 是一种高效的微调方法,它通过 4 位量化的预训练语言模型将梯度反向传递到低秩适配器中,以降低内存使用,同时保持全 16 位微调任务性能。它能够优化模型性能,并且在更小的内存占用下使用小的高质量数据集进行微调,甚至达到先前最先进性 - 在低端硬件上使用语言模型
本研究探讨了在低端硬件上使用固定语言模型为训练文本分类网络提供有效性的可行性,将语言模型与 CNN 构架相结合,并在 8 个数据集上进行了综合基准测试,覆盖了话题、情感和风格的单标签和多标签分类。我们的研究提出了一系列权衡,结论是,在某些情