- 展示科尔莫戈洛夫 - 阿诺德网络在视觉任务中的效力
我们通过对 MNIST、CIFAR10 和 CIFAR100 数据集进行多次试验,使用批量大小为 32,证明了 Kolmogorov-Arnold Network(KAN)在视觉任务中的有效性。研究结果表明,KAN 在 CIFAR10 和 - 有选择性地回答视觉问题
近期,大型多模态模型在视觉任务中表现出前所未有的精确性,尤其对于帮助盲人或视障人士提供准确答案至关重要,而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分 - MambaOut:我们是否真的需要 Mamba 来进行视觉任务?
Mamba 适用于具有长序列和自回归特性的任务,但不适用于图像分类;Mamba 在目标检测和分割任务中表现不如注意力模型,但显示出在长序列视觉任务中的潜力。
- 语义线路组合检测器
本文提出了一种名为语义线组合检测器(SLCD)的新算法,它通过一次性处理每个线组合中的所有线条来评估线条的整体协调性,实验结果表明,所提出的 SLCD 在各种数据集上的表现优于现有的语义线检测器,并且还证明了 SLCD 可以有效应用于消失点 - 关于视觉曼巴的调查
该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法,并介绍了它们在不同层次的视觉任务中的广泛应用,旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。
- ICLR卷积神经网络、局部感受野网络和完全连接网络在图像任务中的地域性和权重共享作用:一种样本复杂度分离
传统卷积神经网络在视觉任务中通过局部性和权重共享的归纳偏差来获得出色的性能。本研究通过引入动态信号分布分类任务,证明了在平移不变任务中,卷积神经网络相比于局部连接卷积神经网络和全连接神经网络具有统计优势,并展示了在本地任务中,局部连接卷积神 - GiT: 通向通用视觉 Transformer 的普适语言接口
这篇论文提出了一种简单而有效的框架,名为 GiT,它能够同时适用于各种视觉任务,只需一个简单的 ViT 模型。
- CVPR掩蔽自动编解码器是一种有效的多任务视觉通才
通过引入双向注意力机制、并行解码框架和掩码序列建模方法,设计了一种名为 MAD 的多任务视觉通用模型,用于统一各种视觉任务,实验证明 MAD 在性能和推理效率方面优于自回归模型,并在与任务专用模型相比获得竞争力的准确性。
- 基于领域适应的实际大气湍流校正
我们在实际环境中提出了一种大气湍流妥协模型,利用领域自适应框架将有监督的模拟大气湍流校正与无监督的实际大气湍流校正相结合,从而提高实际大气湍流场景的性能,改善图像质量和下游视觉任务。
- SamLP: 一个定制的切片任意物体模型用于车牌检测
本文介绍了基于深度学习的车牌检测方法,利用基础模型和低秩适应策略对车牌检测任务进行了改进,并实现了具有较好检测性能和少样本学习能力的车牌检测器。
- 胃肠内窥镜视觉问题的自监督预训练研究
背景:传统的胃肠内镜检查 (GIE) 的视觉任务解决方案通常使用在 ImageNet-1k 上以有监督方式预训练的图像编码器作为骨干网络。目前,现代的自监督预训练算法和最近的 10 万张未标记 GIE 图像数据集 (Hyperkvasir - 统一目标圈定与检测的开放和全面流程
MM-Grounding-DINO 是一个开源、综合且易于使用的基线模型,通过使用丰富的视觉数据集进行预训练和各种检测和定位数据集进行微调,对 Grounding-DINO 模型进行了全面分析和复现,实验证明了其优于 Grounding-D - EvPlug: 事件与图像融合的即插即用模块学习
该论文提出了 EvPlug,一种能够将事件相机与图像相结合的方法,在不需要像素级对齐的情况下,通过学习融合模块的方式,使得 RGB 模型在高动态范围和快速运动场景下具备鲁棒性和高时序分辨率推理能力,从而在物体检测、语义分割和 3D 手姿估计 - 4M:大规模多模态蒙版建模
通过提出一种名为 4M 的多模态训练方案,将文本、图像、几何和语义模态,以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练,论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面 - E2PNet:事件到点云的时空表示学习的配准
2D-3D registration for event cameras is studied using a learning-based method called E2PNet, which employs a novel featu - 视觉大鸟:全注意力的随机稀疏化
基于 Big Bird 的 Transformers 模型,提出了一种用于 Vision Transformers 的稀疏注意机制,该模型在常见的视觉任务中展现了竞争力。
- 通过自适应策略加速 Vision Transformer 的训练:导航扩展法则
最近几年,深度学习领域的最新发展主要由大规模模型主导,这些模型在大量数据上进行了预训练。本文在视觉任务和 Vision Transformers 家族中,通过引导缩放规律,设计出了计算优化的自适应模型,并证明其胜过静态模型。
- ICCVZiCo-BC: 一个用于视觉任务的偏差校正零样本 NAS
此研究探讨了零样本神经网络架构搜索方法以及零样本代理度量的效果,发现现有零样本代理度量存在偏差,限制了其广泛应用,并提出一种新的偏差校正方法。通过在多个视觉任务上的实验证明,该方法能够成功搜索到更高准确性且延迟显著更低的架构,适用于三星 G - 极简白盒变压器下的分割算法出现
使用 CRATE 模型,在最小化的有监督训练过程中,展现了分割性质的出现,表明白盒模型的设计路径可以同时实现高性能和数学完全可解释性。
- 唤醒视觉 Transformer 中的平移等变性
本文提出了一种自适应的多相位锚定算法,该算法可无缝集成到视觉 Transformer 模型中,以确保贴片嵌入和子采样关注模块的移位等变,并利用深度卷积编码位置信息。