- 自适应绕过视觉转换块以实现高效的视觉跟踪
通过自适应计算框架 ABTrack,以及采用剪枝技术和绕过决策模块,本研究提出了一种提高视觉跟踪效率的方式,并通过在多个跟踪基准上进行的大量实验证明了其有效性和卓越性能。
- 视觉 Transformer 模型量化和硬件加速:综述
Vision Transformers(ViTs)的模型量化和硬件加速方面进行了综合调查,探讨了 ViTs 的独特架构特性、运行时特性、模型量化的基本原则,以及用于 ViTs 的最新量化技术的比较分析。此外,还探索了量化 ViTs 的硬件加 - 观察、分析与解决:通过带掩码图像建模预训练探索强大轻量化视觉 Transformer
通过对轻量级视觉 Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tu - 重新思考医学图像分割中的信息损失与各种尺寸的目标
本文介绍了一种新型的 Stagger Network(SNet),通过设计合理的融合结构来减少 CNNs 和 ViTs 之间潜在特征分布的差异,从而降低信息损失。实验证明,该网络在不同尺寸目标分割上优于最近的 SOTAs,并且表现出卓越的 - VMRNN:整合 Vision Mamba 和 LSTM 实现高效准确的时空预测
本文提出了一种以 VMRNN 单元为核心的网络结构,将 CNNs 和 ViTs 与 RNNs 相结合,以有效地处理时空预测任务,并通过广泛的评估表明该方法在多种任务上取得了竞争性的结果,同时保持了较小的模型尺寸。
- LSPT: 长期空间提示调整用于视觉表示学习
长期空间提示调整 (LSPT) 是一种革命性的视觉表示学习方法,通过引入长期的门控提示,巧妙地结合了时间编码和空间编码,提高了视觉类别的区分和识别能力,同时在 5 个 FGVC 和 19 个 VTAB-1K 基准测试中展示了优于其他方法的性 - 基于文本相关图像修补选择的高效视觉与语言预训练
TRIPS 是一种高效的 VLP 方法,通过在视觉主干中引入一个文本导向的补丁选择层,以渐进的方式减少视觉序列,从而加速训练和推理过程,并通过动态计算文本相关的视觉注意力来识别注意力图像令牌,以无缝融合不注意的令牌。TRIPS 不添加额外参 - 利用栖息地信息进行细粒度鸟类识别
将鸟类分类器与栖息地信息集成,通过卷积神经网络(CNNs)、视觉注意力机制(ViTs)和多模态 CLIP 模型对鸟类数据集进行训练,通过整合栖息地特征改进分类器准确度。
- ViTs 随处可见:综合研究展示不同领域中的视觉 Transformer
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导 - 通过单向调节进行高光谱图像分类的传感器连接
通过提出单向调整(SDT)策略,我们解决了视觉 Transformer (ViT) 模型在高光谱成像 (HSI) 分类中训练样本数量有限的矛盾;此外,我们引入了一种新的 Tri-Former,并进行了比较实验证明其在多个 HSI 数据集上表 - 面向有方向物体检测的空间转换解耦
通过空间转换解耦 (STD) 技术,该研究提出了一种简单而有效的方法,用于使用 Vision Transformers 进行定向物体检测,并取得了最先进的性能。
- 可编织的 ViT 视觉主干网络
SN-Netv2 是一种基于模型拼接的框架,能够有效地适应下游任务,并在训练效率和适应性方面均获得了很大的优势。
- 视觉模型适应和鲁棒性的群正交化正则化
该研究提出了一种计算效率较高的正则化技术,通过鼓励同一层内的过滤器组之间的正交性来减少卷积过滤器之间的冗余性,并通过将其应用于扩散模型和视觉转换器(ViTs)的自适应方法中,提高了下游任务的性能,同时在对抗训练期间实施组正交性时还改善了鲁棒 - VIFS:端到端的变分推断在复利声音合成中的应用
使用 VITS 等语音技术,提出了用于不同语音类别的端到端 Foley 音效合成的 VIFS 方法。
- 增强视觉 Transformer 的鲁棒性:防御性扩散
本文介绍一种防御性扩散技术,用于消除攻击性噪声,提高 ViT 在医学应用中的可靠性。此外,本文提出将知识蒸馏与该框架相结合,以获得计算效率高且对灰盒攻击具有鲁棒性的轻量级学生模型。通过对可公开获取的结核杆菌 X 射线数据集的广泛实验,证明了 - 表征很重要:国际象棋对视觉转换器提出了挑战
通过简单调整输入格式和价值损失函数,超越 AlphaZero 许多的方式,来在最古老的 AI 基准测试领域之一的象棋游戏中赢得胜利,仅使用视觉 Transformer,并结合 MobileNet 和 NextViT 提高 ViTs 的效率仍 - 利用 Token Dropout 和上下文细化提高视频动作检测效率
本文提出了一种基于视觉句子转换器的高效视频动作检测框架(EVAD),其中包含两个专门用于视频动作检测的设计:从关键帧 - centric 视角提取时空令牌进行中间特征显著化,通过利用剩余令牌来细化场景环境来获得精确的演员身份识别,该框架可将 - CVPRFishDreamer: 通过统一图像修补和分割实现鱼眼语义补全
介绍了针对鱼眼相机照片的新任务 —— 鱼眼语义完成(FSC),以及设计的新算法 FishDreamer。FishDreamer 利用成功的 ViTs,通过一种新颖的极坐标感知交叉注意力模块(PCA)来实现密集背景信息的利用和语义一致性的内容 - ICLR利用动态提示提高对抗性可转移性
本文研究对抗扰动的可迁移性,发现图片模型生成的攻击无法捕捉动态场景中的时态信号,为此我们提出了一种基于冻结图像模型的时间提示的优化方法,使得图像模型能够被用于欺骗黑盒视频模型。
- 视觉 Transformer 的令牌 - 标签对齐
本文提出了一种名为 TL-Align 的方法, 通过追踪转换后的令牌与原始令牌之间的对应关系有效地解决了数据混合策略中的令牌波动现象,提高了 ViTs 在图像分类,语义分割,客观检测和迁移学习任务方面的性能。