- MeMSVD: 使用增量 SVD 捕捉长程时域结构
这篇研究论文讨论了长期视频理解的问题,提出了一种基于低秩逼近的方案来解决注意力机制的复杂性和内存存储问题,并通过大量实验验证了该方案在不同架构和任务上的优越性。
- 基于无电源嵌入式系统的内存高效、能量适应的预训练模型推理
提出了一种名为 FreeML 的框架,旨在优化预训练的深度神经网络模型,以在电池无需设备上进行内存高效和能量自适应的推理,通过使用压缩技术减小模型尺寸,并引入早期终止机制以实现能量自适应推理,同时最小化内存开销。
- 基于图像和元数据的相机系统实时噪声源估计
自主机器必须自我维持适当功能以确保人类和自身的安全,本研究主要研究了一个实时、内存高效和可靠的噪声源估计器,结合了数据和物理模型,用于检测相机的噪声源,通过分析相机元数据和图像来量化噪声的贡献。
- CVPR基于截断逐个入口绝对残差的可扩展三维配准
在计算机视觉领域,针对具有异常数据的三维点对输入集合,我们提出了一种名为 TEAR 的方法,其旨在通过最小化一个鲁棒性强的损失函数来实现三维配准,该方法能够处理超过 1000 万个点对,并且具有高效性、低内存成本和高准确性。
- SHViT:带有内存高效宏设计的单头视觉 Transformer
通过引入单头注意力模块并利用减少空间冗余的令牌表示,本文提出了一种内在地防止头部冗余并同时通过并行结合全局和局部信息提高精度的单头视觉变换器(SHViT),在速度和准确度之间达到了最先进的权衡。
- 量化侧调优:快速和内存高效优化量化大型语言模型
通过使用量化、分离网络和低秩适配器等方法,Quantized Side Tuning (QST) 能够实现大型语言模型(LLMs)的内存高效、快速的微调,并在减少内存占用的同时达到与最先进方法相媲美的性能,可将总内存占用减少最多 7 倍。
- FlashOcc: 通过通道到高度插件实现快速和内存高效的占用预测
提出了一种名为 FlashOCC 的插拔式预测框架,用于在维持高精度的同时实现快速和内存高效的占据预测,通过在 BEV 中保留特征并引入通道到高度的转换,相比现有方法在精度、运行时效率和内存开销等方面表现出更高的优势,展示了其在部署中的潜力 - 一种计算高效的稀疏化在线牛顿方法
我们介绍了一种记忆高效的二阶算法:Sparsified Online Newton (SONew) 方法,并将其用于大规模基准测试中,获得了更快的收敛速度、更好的验证性能和更高的训练损失改善。该方法利用结构化稀疏模式来加速收敛,同时相对于其 - ELIP: 有效的语言图像预训练模型,减少视觉令牌
我们在有限的计算预算下,研究了高效的语言 - 图像预训练方法,提出了一种基于语言输出监督的视觉记号剪枝和合并方法。我们的实验表明,通过在 12 个 ViT 层上去除约 30% 的视觉记号,我们的方法能够在各种下游任务中保持与基准模型相当的性 - 利用仅前向传递微调语言模型
本篇论文提出了一种名为 MeZO 的零阶优化方法,以替代反向传播法来进行大规模语言模型的微调,从而实现与推理阶段相同的内存占用,该方法在理论上被认为优化大型模型的速度极慢,但本研究的实验结果表明,MeZO 能够使用少至单个 A100 80G - 大型 Transformer 的循环适应
本文提出了一种名为 REcurrent ADaption (READ) 的轻量级记忆型微调方法,可以在保持高模型质量的情况下,大大降低训练的内存消耗和 GPU 能源使用,特别适用于微调大型 Transformers 模型。
- 通过图段训练学习大型图的属性预测
该研究提出了一种名为 Graph Segment Training (GST) 的框架,它通过历史嵌入表获取大型图形的嵌入,实现了基于分段策略的预测学习方法,从而提高了效率和准确性。
- MF-NeRF:混合特征哈希表的内存高效 NeRF
本研究提出了一种混合特征哈希表的内存高效的 NeRF 框架,可以改善内存利用率和减少训练时间,同时保持重建质量。实验结果表明,在相同的 GPU 硬件上,与 Instant-NGP、TensoRF 和 DVGO 等最先进的方法相比,MF-Ne - 视频动作识别的持续学习方法基线
本文旨在针对视频动作识别领域提出一种有效的、高效的方法来解决模型不断学习的问题,包括使用模型信心或数据信息来选择可记忆的样本的方法,并针对此方法进行评估,得出了在小缓冲区的条件下表现出更高的学习效果。
- CVPRDisCo-CLIP: 基于分布式对比损失的高存储效率 CLIP 训练
提出了一种名为 DisCo-CLIP 的分布式内存高效的 CLIP 训练方法,旨在减少对比损失在对比学习模型训练时的内存消耗,通过分解对比损失和梯度计算成两部分,一个用于计算内部 GPU 梯度,另一个用于计算跨 GPU 梯度,将跨 GPU - 基于 Transformer 和公平训练的轻量级单图像去噪探索
本研究提出七种轻量级去噪变压器网络,并探讨基于裁剪的数据增强对其训练的重要性,这有助于在实际应用中更高效地去除数字设备固有的噪声并提高视觉识别能力。
- AAAI灌木丛集用于在线分类
本文提出了一种名为 “Shrub Ensembles” 的新型在线分类集成算法,它使用随机近端梯度下降法训练小到中等大小的决策树,并在小窗口上处理数据以节省内存。实验表明,该方法在资源有限的情况下仍然表现出色。
- 大型图像的高效元学习
提出了一种称为 LITE 的新的元学习方法,通过在训练集中使用一个随机子集来近似全梯度,进而使得此方法既能在单个 GPU 上训练大任务和图像,又能实现对于实际测试数据和较复杂测试集的准确和高效的元学习。
- ACL使用哈希的高效开放域问答过程检索
本篇论文介绍一种名为 Binary Passage Retriever (BPR) 的神经检索模型,它将学习哈希技术集成到 Dense Passage Retriever (DPR) 中,以紧凑的二进制代码表示待检索文本,从而大幅降低了内存 - ICMLEL-Attention: 面向生成的记忆效率高的无损注意力
提出了一种名为 EL-attention 的记忆高效的无损注意力机制,它避免了传统基于 cache 的多头注意力机制的高运算代价,通过扩展 query 并保持 key 和 value 的共享来构造注意力结果,从而实现了与传统方法相同的结果,