PTQ4SAM:用于分段任意物体的训练后量化
研究表明使用一个固定的超参数p不能达到最优的量化性能,因此提出了一种名为DetPTQ的框架,使用基于检测结果的适应性p值来选择最优量化参数。实验结果表明,DetPTQ在2D和3D物体检测器上都比现有技术更优秀。
Apr, 2023
本论文针对计算机视觉中处理高分辨率输入带来的高昂计算代价提出了使用基于CNN检测器结合实例分割进行图像分割的替代方案,实验结果表明该方法仅使用SAM作者发布的1/50数据集,便可在50倍的运行时速下实现与SAM方法基本相当的性能。
Jun, 2023
基于自训练的策略,通过锚点规范化和低秩微调,提升了图像分割基础模型的适应性和计算效率,并在多个下游分割任务中表现出优于预训练模型SAM和最先进的领域自适应方法的性能。
Dec, 2023
提出了一种TinySAM模型,通过知识蒸馏、后训练量化和分层分割策略,在保持零样本性能的同时大幅度减少了计算成本,进一步推动了高效分割任务的发展。
Dec, 2023
本文提出了Scalable Bias-Mode Attention Mask(BA-SAM)解决图像分辨率变化对Segment Anything Model (SAM)的影响,并实现了零样本泛化能力。通过引入新的缩放因子和偏置模式注意力掩码,BA-SAM在不改变结构的情况下,增强了模型对不同图像分辨率的适应性,同时在零样本学习和微调中取得了显著的性能提升。
Jan, 2024
通过引入SAM-Lightening,一种改进的注意力机制,称为Dilated Flash Attention,本研究在COCO和LVIS数据集上通过渐进蒸馏实现了从原始SAM的知识转移,实现了在运行时间效率和分割准确性方面显著优于最先进方法,每幅图片仅需要7毫秒的推理速度,是原始SAM的30.1倍,且内存占用只有原始SAM的3.5%。
Mar, 2024
对于Segment Anything Model(SAM)的(非)条件图像分割任务,通过研究发现,与点-盒引导分割相比,SAM在文本引导任务上表现较差,因其默认的轻量级遮罩解码器中的浅层融合方案。本文提出了两种深度指令调优方法,一种是端到端的,另一种是逐层的。通过这些调优方法,我们可以将SAM的图像编码器视为独立的视觉-语言学习器,而不是构建另一个深度融合分支。对三个高度竞争的参考图像分割基准数据集进行的大量实验证明,简单的端到端DIT显著提高了SAM的性能,而逐层DIT进一步将其推向了最先进水平。
Mar, 2024
后训练量化(PTQ)是一种高效的模型压缩技术,它使用一个小的校准样本集对预训练的全精度模型进行量化,而无需重新训练。我们提出了一种针对视觉变换器(ViTs)的实例感知分组量化技术(IGQ-ViT),它动态地将激活图的通道分割为多个组,以使每个组内的激活具有相似的统计特性。我们的方法扩展到对令牌之间的 softmax 注意力进行量化,并通过调整每个层的组数来最小化量化模型与全精度模型之间的差异,在位运算约束下取得了良好效果。我们在图像分类、目标检测和实例分割等领域进行了广泛的实验证明了我们的方法的有效性。
Apr, 2024
对于Vision Transformer(ViT)网络,提出了一种新的自适应对数基AdaLog量化器,以解决post-Softmax和post-GELU激活输入的不规则量化问题,并通过快速渐进式组合搜索(FPCS)策略确定最佳对数基和量化参数。在公共基准测试中,通过对各种ViT-based架构和视觉任务进行广泛实验,证明了该方法的有效性。
Jul, 2024
本文针对现有的参考图像分割方法在资源受限的边缘设备上的应用不足提出了研究空白。我们提出了一种名为PTQ4RIS的后训练量化框架,通过双区域量化和基于重排的异常保留量化技术,有效解决了视觉和文本编码器的量化问题。实验结果显示该方法在不同位数设置下的性能优越,证明了后训练量化在参考图像分割任务中的可行性。
Sep, 2024