- EEG-ImageNet: 多层次标签的脑电图数据集和基准测试
通过脑活动识别和重建我们所看到的内容,可以深入研究生物视觉系统如何代表世界。本文介绍了 EEG-ImageNet,一个包括从 16 名受试者记录的来自 ImageNet 数据集中的 4000 个图像的新颖 EEG 数据集,该数据集为目标分类 - PEFSL:用于 FPGA SoC 的嵌入式少样本学习部署管线
利用 FPGA SoCs 实现少样本学习的挑战及开发具有数据流架构的少样本学习平台的研究。
- CVPR探究视觉基础模型的三维认知能力
最近大规模预训练的进步提供了具有强大功能的视觉基础模型。我们分析了视觉基础模型的三维感知能力,并通过一系列实验揭示了当前模型的几个局限性。
- CVPR图像分类中的 OOD 鲁棒性的贝叶斯方法
计算机视觉中的一个重要且尚未解决的问题是确保算法对图像域的变化具有稳健性。我们提出了一种基于贝叶斯方法的新颖 OOD 鲁棒性对象分类方法,扩展了组合神经网络 (CompNets),并通过迭代优化在 OOD 场景中表现出很好的性能。
- 探索压缩图像表示作为感知代理:一项研究
我们提出了一种端到端学习的图像压缩编解码器,其中分析变换与目标分类任务同时训练。该研究证实,压缩的潜在表示能够以与定制的基于深度神经网络的质量指标相媲美的准确性预测人的感知距离判断。我们进一步研究了各种神经编码器,并展示了将分析变换作为超出 - 大词汇量物体检测器的域适应
本文介绍了 KGD(Knowledge Graph Distillation)技术,它利用了 CLIP 中的隐式知识图,通过两个连续阶段将知识图传递到大词汇物体检测器(LVDs),从而在各种下游领域中实现准确的跨领域物体分类。实验证明,KG - KDDCAD 模型到现实世界图像:工业物体分类中无监督领域自适应的实用方法
通过分析工业环境中无监督领域适应的管道,本文系统地研究了目标分类。与领域中现有的标准自然目标基准相比,我们的结果突出了当只有分类标记的 CAD 模型可用但需要使用真实世界图像进行分类时的最重要的设计选择。我们的领域适应管道在 VisDA 基 - 基于灰度共生矩阵和直方图提取的集成学习目标分类模型
基于物体分类的识别方法研究中,对象的变化是一个挑战。本研究提出了一种分类方法,使用投票和组合分类器,结合随机森林、K-NN、决策树、SVM 和朴素贝叶斯分类方法。测试结果表明,投票方法和组合分类器的准确率分别为 92.4% 和 99.3%。 - 递归神经网络中物体识别的表示动态特性
通过研究大规模可视化模型中循环神经网络(RNN)的表征动力学,发现推理过程中表征持续演化,且错分表征表现出较低的 L2 范数激活模式,并更靠近读出区域的边缘,这种排列方式有助于错分表征随时间进展逐渐进入正确的区域,结果对于理解自然任务中 R - 弱监督物体定位中的本地化反思
通过引入二分类检测器和加权熵损失函数,提出了一种改进的弱监督目标定位方法,解决了现有方法中单类回归和噪声边界框带来的限制和问题。在 CUB-200-2011 和 ImageNet-1K 数据集上的实验结果表明了我们方法的有效性。
- 使用 SoC FPGA 设备生成高清事件帧
通过 FPGA 设备实现高分辨率事件数据流(HD-1280 x 720 像素)的累积与投影,研究探索了该方法的可行性、挑战、限制和权衡,并与 AMD Xilinx 等平台上的可用数据表示进行了比较。所得的事件帧可以用于经典和深度神经网络方法 - YOLIC: 边缘设备上物体定位和分类的高效方法
YOLIC 是一种高效的物体定位和分类方法,采用基于语义分割和目标检测的方法,利用感兴趣细胞而不是像素进行分类,不仅降低计算负荷,还能够获得物体的粗略形状识别,无需边框回归,并且实现了在相对较快的速度下实现与 YOLO 算法相当的检测性能。
- 智能多通道元成像器加速机器视觉
通过使用智能亚表面图像传感器与后端数字计算结合的方法,实现了大规模并行的高速低能耗光学卷积神经网络,应用在机器视觉的对象分类中,成功地对手写数字进行了 98.6% 的准确分类和时尚图像 88.8% 的分类。
- 用于任务组合的提示代数
本文探讨使用独立学习的提示符是否可以通过提示代数,组合不同任务的模型。我们考虑使用提示调整的视觉语言模型 (VLM) 作为我们的基本分类器,形式化地定义提示代数的概念,提出了约束提示调整来改善复合分类器的性能。我们证明了我们方法的有效性对象 - 使用图像和文字的深度网络识别人体形状
通过使用基于语言(以单词为基础)的身体描述和标准物体分类方法相结合的方法,我们发现身体形状可以用作跨越不同距离和视角的生物特征,从而提高人体识别的准确性。
- CNNs 压缩的评估指标
本文旨在通过提供评估指标的综述,为神经网络压缩的标准化做出贡献,并将这些指标实现到一个名为 NetZIP 的标准化神经网络压缩平台中,在三个案例研究中展示了一些指标,分别聚焦于对象分类、对象检测和边缘设备。
- 基于局部区域映射的方法对关节化物体进行分类
该论文提出了一种基于点云和本地转换的方法来对物体进行分类,以确定其是否是刚性或关节的。该方法具有无约束性和无模型的优势,可在不需要任何对象模型或已标记的数据的情况下识别物体的关节和刚性部分。作者在两个公开数据集上进行了性能测试,表明该方法能 - 无需三维注释的开放词汇点云物体检测
本文探讨了通过分治策略进行开放式词汇 3D 点云检测的方法,该方法使用图像预训练模型来学习定位各种对象,并连接文本和点云表示,以便根据提示文本对新对象类别进行分类,从而实现开放式词汇 3D 目标检测,同时在 ScanNet 和 SUN RG - CVPRMVImgNet:一种多视图图像的大规模数据集
提出了一个名为 MVImgNet 的大规模多视图图像数据集,它包含了从 238 个类别的 219,188 个视频中捕获的 650 万个帧。这个数据集被用于在 3D 视觉和 2D 视觉任务中进行了各种实验,包括辐射场重建、多视图立体和视角一致 - 透明物体复杂背景下的视觉 - 触觉融合抓取
本论文提出了一个适用于复杂背景和光线条件下透明对象抓取的视触融合框架,包括抓取位置检测、触觉校准和基于视触融合的分类。该框架综合了视觉和触觉的优势,极大地提高了透明对象的抓取效率。