- Grass: 结构稀疏梯度的计算高效低内存 LLM 训练
本研究通过利用稀疏投影将梯度转化为结构稀疏更新,以显著降低优化器状态的内存使用,减少梯度内存占用、计算和通信成本,并实现了与全秩训练和现有投影优化方法相媲美的性能。
- 大型语言模型微调的优化研究
研究中通过深入研究 Fine-tuning 的优化策略和技术,探讨了对于具有大量参数的语言模型在 GPU 资源限制下,平衡内存和运行时间的最佳优化方案。
- GLCAN: 具有全局 - 本地协作辅助网络的本地学习
传统的深度神经网络通常使用端到端的反向传播方法,在 GPU 内存上往往产生很大的负担。另一种有前途的训练方法是局部学习,它将网络分为多个块,并借助辅助网络并行训练它们。局部学习已被广泛研究和应用于图像分类任务中,并且其性能与端到端方法相当。 - MoNDE: 大规模稀疏模型的近数据专家混合
提出了一种近数据计算解决方案 MoNDE,通过仅传输热门专家到 GPU,将专家参数的传输转换为小型激活的传输,从而实现更高效的 MoE 推断,对于编码器和解码器操作都能实现显著加速。
- vAttention:为无需 PagedAttention 的 LLM 提供动态内存管理
为了解决 GPU 内存的高吞吐量 LLM 推理的问题,该论文提出了 vAttention 的动态 KV-cache 内存管理方法,相较于 PagedAttention 模型,vAttention 在连续虚拟内存中保留 KV-cache,并利 - 序列秘密揭示舍弃的内容
本文介绍了一种优化大语言模型中键值缓存的方法,通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达 70%,而不会引起性能明显下降。
- CVPR文本到视频生成的网格扩散模型
通过使用网格扩散模型生成视频,我们可以通过固定数量的 GPU 内存生成高质量的视频,减小视频维度从而可以应用各种基于图像的方法,如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法,证明了我们的模型在真实世界中进行视频生成的适 - 一种新的体数据隐式神经表示
提出了一种新的隐式神经表示压缩方法,利用 Lanczos 降采样方案、SIREN 深度网络和 SRDenseNet 高分辨率方案,实现了高压缩比和良好的图像重建质量,同时降低了训练时间和 GPU 内存成本。
- HiFT: 一种分层全参数微调策略
通过 HiFT 这一新的、独立于优化器的端到端分层微调策略,我们能够在训练步骤中仅更新子参数集合,从而显著减少梯度和优化器状态参数在 GPU 内存中的占用量,并降低超大模型全参数微调时的 GPU 内存使用。
- DeltaZip:通过增量压缩提供多租户语言模型服务
通过提取和压缩模型与其预训练基础模型之间的差异,DeltaZip 是一种 LLM 服务系统,可以高效地同时提供多个全参数微调模型,压缩因子可达 6 倍至 8 倍,并且可以提高服务吞吐量 1.5 倍至 3 倍,相比于香草 HuggingFac - TensorBank:基于张量的湖仓系统用于基础模型训练
基于复杂的关系查询,TensorBank 是一个能够从云对象存储流式传输张量到 GPU 内存的 PB 级张量湖,使用 HSI 进行查询加速,并且可以使用 PyTorch 转换对数据进行处理,该架构适用于各种用例包括自然语言处理、计算机视觉、 - 使用 Adam 累积减少大规模 DNN 训练中活化和梯度的内存占用
研究了大规模 DNN 训练中 GPU 内存问题,提出了一种名为 AdamA 的优化器累加方法,能同时减少激活内存和梯度内存的占用,与 Adam 相比性能不差,能在 PyTorch 和 DeepSpeed 等框架下使用。
- 探索共享内存体系结构的端到端千亿像素深度学习
尝试使用 M1 Ultra SoC 中的共享 GPU/CPU 内存体系结构来解决医学图像领域深度学习模型开发时 GPU 内存资源饱和的问题,通过一种修改后的 U-Net 模型,成功地对具有 10 亿像素的 WSIs 进行了 1 分钟和 21 - AAAI重新思考视差:基于视差的深度范围无关多视角立体匹配
本文提出一种基于视差流和图像 2D 成本体构建的多视图立体视觉方法 - DispMVS,该方法对深度范围无敏感性且使用 GPU 内存更少,具有良好的多视角一致性和匹配效果。
- SNeRF:用于 3D 场景的风格化神经隐式表示
本研究提出了一种基于神经辐射场的三维场景风格化方法,采用新的训练方法,交替进行 3D 场景和风格化优化步骤,从而应用更加表现力的图像风格转移方法,生成高质量的具有交叉视角一致性的新视角图片。
- CVPR大规模应用中的视觉地理定位再思考
在这篇论文中,我们构建了一个 30 倍于现有最大数据集的 San Francisco eXtra Large 数据集,研究了现有的技术在实际城市范围内的视觉定位应用中的性能表现,并设计了一种高度可扩展的训练技术 CosPlace,它将训练模 - ECCVTALLFormer:基于长期记忆 Transformer 的时间动作定位
提出 TALLFormer, 一种内存高效、可训练的时间动作定位 Transformer 方法,其长期记忆机制消除了在每个训练迭代中处理数百个冗余视频帧的需要,从而显著降低了 GPU 内存消耗和训练时间。
- ICLRDropIT:为内存高效的深度神经网络训练丢弃中间张量
该研究提出了一种名为 DropIT 的方法,该方法可以通过删除中间张量元素来提高深度神经网络训练的效率和精确性。实验表明,DropIT 方法可以在较高的测试精度下,删除全连接和卷积层中多达 90%的中间张量元素,以及在不同任务中(例如分类、 - ZeRO-Infinity:打破 GPU 内存壁垒,满足极端规模的深度学习
该论文提出了一项新的异构系统技术,称为 ZeRO-Infinity,它可以在有限的资源上实现前所未有的模型规模,同时实现出色的训练吞吐量和可扩展性,并且无需重构模型代码,是一个可以应用于当前 GPU 集群的技术。
- CVPR渐进式语义分割
该文章提出了一个名为 MagNet 的多尺度框架,可以在不超载 GPU 内存使用或丢失输出细节的情况下对高分辨率图像进行分割。