PTQ4SAM:用于分段任意物体的训练后量化
提出了一种 TinySAM 模型,通过知识蒸馏、后训练量化和分层分割策略,在保持零样本性能的同时大幅度减少了计算成本,进一步推动了高效分割任务的发展。
Dec, 2023
提出了 SmoothQuant + 方法,它是一种准确而高效的 4 位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过 SmoothQuant+,Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度,并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型,能够提高 1.9 至 4.0 倍的吞吐量,每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。
Dec, 2023
提出了一种名为 HQ-SAM 的模型,该模型在保持 Segment Anything Model(SAM)原始 zero-shot 设计,高效性和推广性的同时,赋予 SAM 精确切分任何对象的能力,通过深度融合输入的不同特征并引入可学习的高质量输出 Token,有效提高了遮罩细节。在多种下游任务的 9 个不同分割数据集中展示 HQ-SAM 的有效性,其中有 7 个采用了零 - shot 转移协议进行评估。
Jun, 2023
本文提出了一种称为 PerSAM 的、无需训练的个性化方法,该方法首先通过位置先验定位目标概念,然后通过三种技术 - 目标引导注意力、目标语义提示和级联后处理在其他图像或视频中对其进行分割,有效地适应 SAM 的私人使用。此外,我们还提出了一种高效的单次微调变体,PerSAM-F,以缓解掩模的歧义。我们构建了一个新的分割数据集 PerSeg,并在具有竞争性的性能的视频对象分割上测试了我们的方法。
May, 2023
通过引入一种新型的提示驱动适配器(PA-SAM)到 Segment Anything Model (SAM) 中,提高了原始 SAM 的分割掩模质量,通过在稀疏和密集提示级别上优化面罩解码器功能,从图像中提取详细信息,实验结果表明 PA-SAM 在高质量、零样本和开放集分割方面优于其他基于 SAM 的方法。
Jan, 2024
SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现 LLMs 的 8 位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速,是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。
Nov, 2022
为了解决 Diffusion Transformers(DiTs)中特定的量化挑战,本文提出了一种特定的 Post-training Quantization(PTQ)方法,称为 PTQ4DiT。通过 Channel-wise Salience Balancing(CSB)和 Spearmen's ρ-guided Salience Calibration(SSC)来解决 DiTs 中存在的通道不平衡和时间变化的挑战,并通过离线重新参数化策略降低了计算成本,实现了对 DiTs 的有效量化到 8 位精度(W8A8),并首次实现了对 4 位权重精度(W4A8)的有效量化。
May, 2024
SlimSAM 是一种新型的 SAM 压缩方法,通过高效地重用预训练的 SAM,采用统一的修剪 - 蒸馏框架,创新的交替瘦身策略以及新颖的无标签修剪准则,以显著降低训练成本并在性能上取得重大改进。
Dec, 2023
本论文针对计算机视觉中处理高分辨率输入带来的高昂计算代价提出了使用基于 CNN 检测器结合实例分割进行图像分割的替代方案,实验结果表明该方法仅使用 SAM 作者发布的 1/50 数据集,便可在 50 倍的运行时速下实现与 SAM 方法基本相当的性能。
Jun, 2023
探索量化对 S5 模型的影响以及将其部署到边缘和资源受限平台的有效性。使用量化感知训练(QAT)和事后量化(PTQ)系统评估了 SSM 在不同任务上的量化灵敏度,研究结果表明,循环权重低于 8 位精度时,大多数任务的性能显著下降,而其他组件可以进一步压缩而不会引起显著的性能损失。此外,研究还发现 PTQ 在基于语言的任务上表现良好,而其他任务则需要 QAT。该研究为高效和硬件优化的 SSM 的持续发展提供了必要的见解。
Jun, 2024