- ME-Switch: 大型语言模型的内存高效专家切换框架
ME-Switch 是一种用于 LLM 提供的高效内存专家切换框架,通过混合精度量化,选择性地对非显著输入通道进行极低位量化,同时保持显著通道完整,从而显著减少存储需求并保持性能;此外,我们还开发了一种路由方法,通过将模型选择问题转化为领域 - ICMLKernelWarehouse: 动态卷积设计的重新思考
KernelWarehouse 是一种更通用的动态卷积形式,通过在同一层及相邻层之间利用卷积参数的依赖关系重新定义了 “核心”、“组装核心” 和 “注意函数” 等基本概念,以提高动态卷积的参数效率,并在 ImageNet 和 MS-COCO - LLaMA-NAS:大规模语言模型高效神经架构搜索
提出了一种基于一次性 NAS 的高效方法,通过对 LLaMA2-7B 进行微调,并应用基于遗传算法的搜索方法找到更小、计算复杂度较低的网络架构,实现了模型大小减少和吞吐量加速,同时保持了准确性;此方法比修剪或稀疏化技术更有效和高效,并且证明 - MixDQ: 高效节省内存的几步文本到图像扩散模型与度量分离混合精度量化
通过开发一种混合精度量化框架 MixDQ,我们针对强敏感度文本嵌入进行专门的 BOS 感知量化方法设计,通过度量解耦灵敏度分析来衡量每一层的敏感度,最后通过基于整数规划的方法进行位宽分配,与现有的量化方法相比,MixDQ 在保持 W8A8 - 结合多种后训练技术实现最高效的量化 LLMs
通过 quantization 技术,结合 SmoothQuant 和 GPTQ 两种 post-training 技术,将模型量化为 MX 格式,能够显著减小优化型模型大小至多 4 倍,提高 LLaMA 模型大小至多 3 倍,同时仅仅增加 - 為什麼举得那麼重?通过削减层数减轻大型语言模型
通过减少层数,可以缩小大型语言模型的规模,而仍能保持或提升其在文本分类任务中的性能水平。
- 面向任务的扩散模型压缩
通过减小模型大小和减少时间步长,我们探索了基于任务的方式压缩 I2I 模型,并将其应用于图像编辑和图像修复任务,取得了满意的输出质量以及模型大小和延迟的显著减少。
- 稳定扩散 XL 的渐进式知识蒸馏以层级损失
通过降低模型大小和知识蒸馏,我们引入了两种简化的 Stable Diffusion XL 模型 (SSD-1B 和 Segmind-Vega),并证明了在保持高质量生成能力的同时减少模型大小的有效性。
- 卷积神经网络的块剪枝提高效率
该论文介绍了一种新的网络剪枝方法,针对边缘计算环境中的深度神经网络中的块剪枝。研究方法采用直接的块移除策略来评估对分类准确性的影响,通过对 CIFAR-10、CIFAR-100 和 ImageNet 数据集以 ResNet 架构进行广泛实验 - RankDVQA-mini: 知识蒸馏驱动的深度视频质量评估
通过使用剪枝驱动的模型压缩和多层级知识蒸馏的两阶段工作流程,我们成功地显著减小了排名型深度视频质量评估方法 RankDVQA 的模型大小和运行时间,得到了一个轻量级的质量度量指标 RankDVQA-mini,其参数量不到原始版本的 10%( - MCAD: 多教师跨模态对齐蒸馏以实现高效的图像 - 文本检索
使用多教师跨模态对齐蒸馏技术 (MCAD),通过在双流模型中融合单流特征提高学生模型的检索性能,同时实现高效的图像 - 文本检索任务,降低模型大小和终端设备部署的复杂性。
- ResidualTransformer:采用权重共享的残差低秩学习的 Transformer 层
通过重新参数化模型权重,将 Transformer 编码器层中的模型权重缩小,可以降低模型大小,减轻设备内存的压力,并在语音处理任务上取得了显著的性能改进。
- 利用蝴蝶分解减少 IPU 的内存需求
高性能计算从硬件平台的不断改进中受益,在保持合理功耗的同时提供更多的处理能力。智能处理单元(IPU)是一种新型的大规模并行处理器,旨在加速具有大量处理核心和高速内存组件的并行计算。本文研究了如何在 IPU 上实现蝶形结构,并研究了它们与 G - KernelWarehouse:面向参数高效动态卷积
通过重新定义动态卷积中的基本概念,并采用策略性的卷积核分割和仓库共享,提出了一种更高效的动态卷积方法 KernelWarehouse,实现了参数效率和表征能力的有利平衡,并通过在 ImageNet 和 MS-COCO 数据集上的实验证实了其 - My3DGen: 构建轻量化个性化 3D 生成模型
My3DGen 是一个实用系统,使用不超过 10 张图像创建个性化和轻量级的 3D 生成先验系统。该系统利用预训练模型的固定权重作为通用先验,通过低秩分解在每个卷积和完全连接层的权重上进行单独的个性化先验训练,并通过基于人脸对称的规则化技术 - 头部姿态估计多输出回归模型增强边缘推断的参数选择比较研究
本研究采用基于幅值的修剪技术来对深度学习模型进行优化,以适应边缘推理的需求,我们成功地将头部姿态估计的多输出回归模型的模型大小优化了 75% 以上,并取得了比原模型更高的精度。
- CVPR元学习中的动态核选择,提高泛化性能和内存效率
本文提出了一种名为 MetaDOCK 的任务特定动态内核选择策略,通过良好地压缩 CNN 和任务特定的内部模型,可以在减少模型大小的同时提高模型的准确性。
- 基于通道独立性的紧凑神经网络剪枝方法 CHIP
本文从跨通道的角度出发,提出了一种基于通道独立度的高效的滤波器剪枝方法,该方法通过减少含有较少有用信息的特征图的数量,从而减小了模型容量,提高了模型的计算和存储效率。实验结果表明,在不影响精度的情况下,该方法可以显著地减小模型大小和 FLO - PP-OCR:一款实用的超轻型 OCR 系统
本论文提出了 PP-OCR,一个高效的光学字符识别系统,其模型大小仅有 3.5M。该系统通过采用一系列优化策略来提高模型能力和减小模型大小。此外,该系统支持多语言识别,包括法语、韩语、日语和德语。
- 基于频率双哈希的推荐系统模型大小缩减
本论文提出了一种混合哈希方法,将频率哈希和双哈希技术相结合用于模型大小降低,在两个产品表面上的实验结果表明,我们可以将模型大小降低约 90%,同时保持基线模型的性能。