PatchDCT: 用于高质量实例分割的补丁细化技术

ICLRFeb, 2023

PatchDCT: 用于高质量实例分割的补丁细化技术

PatchDCT: Patch Refinement for High Quality Instance Segmentation

Qinrou Wen, Jirui Yang, Xue Yang, Kewei Liang

TL;DR为了进一步完善压缩向量得到的蒙版，我们提出了一种基于压缩向量的多阶段完善框架，并引入了 PatchDCT 方法，通过设计的分类器和回归器对蒙板进行分块、纠正、改善其细节，实验证明该方法在图像识别领域表现良好。

Abstract

High-quality instance segmentation has shown emerging importance in computer vision. Without any refinement, DCT-Mask directly generates high-resolution masks by compressed vectors. To further refine masks obtain

instance segmentation compressed vectors refinement framework patchdct image recognition

发现论文，激发创造

DCT-Mask：离散余弦变换蒙版表示实例分割

本研究提出了一种新的掩模表示方法 DCT-Mask，通过在高分辨率二进制网格掩模中应用离散余弦变换编码成紧凑向量，进而容易地融入大多数基于像素的实例分割方法，并在不同框架、主干网络、数据集和训练时间表上仅仅稍有改进。

Nov, 2020

DPT: 可变形基于块的 Transformer 用于视觉识别

提出了一种新型的 Deformable Patch（DePatch）模块，可以自适应地将图像分割为具有不同位置和比例的补丁，从而更好地保留了补丁中的语义信息。将该模块加入 Transformer 中，在图像分类和目标检测等任务上进行广泛评估。

Jul, 2021

更近距离观察以进行更好的分割：用于实例分割的边界补丁细化

提出一种基于后处理细化的框架，名为 BPR，以改善任何实例分割模型的结果，该框架通过沿预测边界提取和细化一系列小的边界补丁来提高边界质量，在 Cityscapes 基准测试中比 Mask R-CNN 基线得到显著提升，特别是在边界感知度量方面；此外，通过将 BPR 框架应用于 PolyTransform + SegFix 基线，我们在 Cityscapes 排行榜上达到第一名。

Apr, 2021

重新审视图像分类器训练以提高对抗补丁的认证鲁棒防御

该论文提出了一种通过最坏情况遮盖来提高模型不变性的方法 Greedy Cutout，相比于 PatchCleanser 中的 Random Cutout 增强方式，通过使用 Greedy Cutout 可以提高模型的认证鲁棒性。

Jun, 2023

基于 Vision Transformer 的实用可验证补丁防御

利用 Vision Transformer 结合 Derandomized Smoothing 进行逐步平滑的图像建模任务来训练并提高证明补丁防御机制的可证准确性，同时重构了原始的 ViT 的全局自注意结构以适用于在实际世界中的高效推理和部署。在 ImageNet 数据集上，在 2% 区域补丁攻击下，本文方法达到 41.70% 的证明准确度，比之前最佳方法高出近 1 倍（26.00%）。同时，本方法达到了 78.58% 的干净准确度，接近正常 ResNet-101 的准确度，并在 CIFAR-10 和 ImageNet 上实现最先进的干净和证明准确度。

Mar, 2022

DPatch: 物体探测器的对抗性贴片攻击

本文提出了 DPatch，一种黑盒子对现代计算机视觉系统（如 Faster R-CNN 和 YOLO）的基于敌对的黑盒贴片攻击。与原始的敌对贴片只操纵图像级分类器不同，DPatch 同时攻击边界框回归和对象分类以禁用它们的预测，具有非常高的转移性且实践性强。

Jun, 2018

探索基于 DCT 表示的语义分割

本文提出了一种在离散余弦变换（DCT）表示上执行语义分割的方法，通过重新排列 DCT 系数以形成首选输入类型，并针对 DCT 输入量调整现有网络来实现。该方法的准确性接近于 RGB 模型，在网络复杂性相当的情况下，适当选择 DCT 分量可以使用 36％的 DCT 系数获得相同水平的准确性，并且可以显示该方法的鲁棒性在量化误差下。据我们所知，这是第一篇探索 DCT 表示上的语义分割的论文。

Jul, 2019

SKU-Patch：面向 Auto-Store 中未见物体的高效实例分割

在大规模仓库中，对于机器人的货箱拾取来说，精确的实例掩模至关重要，但往往很难获得。本文提出了一种新的基于补丁引导的实例分割解决方案 SKU-Patch，利用每个新的 SKU 仅需少量图像补丁来预测准确和稳健的掩模，避免了繁琐的手动操作和模型重训练。技术上，我们设计了一种新颖的基于 Transformer 的网络，具备（i）用于捕捉由补丁信息校准的多层次图像特征的图像补丁 - 图像相关编码器和（ii）带有并行任务头的补丁感知 Transformer 解码器，用于生成实例掩模。在四个仓库基准测试上进行的大量实验证明 SKU-Patch 能够在性能上超过现有最先进的方法。此外，SKU-Patch 在机器人辅助的自动货运管道中对 50 多个未见过的 SKU 的平均抓取成功率接近 100％，显示出其有效性和实用性。

Nov, 2023

基于离散余弦变换的去相关注意力视觉转换

Transformer 架构的关键是自注意机制，本文提出两种方法，一种是利用 DCT 系数进行初始化来增强辨别能力，另一种是基于 DCT 的压缩技术来减少计算开销。

May, 2024

用于图像异常定位的掩蔽变形器

基于 Vision Transformer 架构和 Patch 掩蔽技术的图像异常检测方法，将输入图像分成多个分辨率的 Patch，在忽略异常信息的同时对周围数据进行重建，相较传统方法性能更好，MVTec 和 head CT 等数据集上实现了良好的结果。

Oct, 2022