- 名称背后的含义:超越图像识别分类指数
本论文使用非参数方法建立图像之间的关系,设计出一种基于视觉语言模型的图像分类方法,使模型在图像分类问题上能更好地解决零样本和半监督问题,将语义信息映射到图像分类上,并在 ImageNet 数据集中取得了约 50% 的性能提升。
- 使用预训练视觉语言模型进行开放世界物体操作
通过使用预训练的视觉 - 语言模型,开发了一种简单的方法 Manipulation of Open-World Objects (MOO) 来从自然语言命令和图像中提取目标标识信息,并将机器人策略基于当前图像、指令和提取的对象信息。在一个真 - VoxFormer:基于摄像机的稀疏体素变换器用于三维语义场景完成
本论文提出了一种基于 Transformer 的场景语义补全框架 VoxFormer,可以从 2D 图像中输出完整的 3D 体素语义,并在测试中获得了相对 20% 的几何和 18.1% 的语义方面的提升。
- D2O:一个新的用于物体分类的测试数据集
该论文引入了一个新的测试集 D2O,该测试集可以帮助评估模型和衡量计算机视觉和人工智能中的进展,同时缓解现有测试集的一些问题,例如偏见和模型性能被低估等。D2O 测试集由生成图像和网络爬取图像混合而成,没有预备的训练集,旨在重视泛化能力,可 - 学习对象属性规划
本文提出了一种利用符号规划的方法,采用先前的训练数据自动训练神经网络识别物体属性的方法,并使用规划技术来自动化训练数据集的创建和学习过程。最后,我们在模拟和真实环境中进行了实验评估,结果表明所提出的方法能够成功地学习如何识别新的物体属性。
- 基于情感和关键词的视觉故事生成
自动视觉化故事生成包含了自然对话生成和图像生成两个部分,其中,系统通过用户指定的关键词和情绪标签生成下一个句子,再用扩散模型生成相应的图像。此外,通过对象识别技术,生成的图像中的物品可被用于未来的故事发展。
- 一种新的特征混淆方法揭示了卷积神经网络学习空间关系的能力
该研究使用特征打乱的方法,结合 CNNs 的最小可识别构型分析和有效接受域尺寸的系统控制,探索了 CNNs 在对象分类中是否使用特征的空间排列,并且发现它们实际上能够利用相对较远的空间关系进行对象分类,同时证明 CNNs 使用的空间关系程度 - 利用人类先验知识识别由构件组成的物体增强深度神经网络的对抗鲁棒性
本研究提出了一种名为 ROCK 的新型目标识别模型,通过前期将目标物品分解成部分再进行评分,最后再进行预测输出,从而实现了对抗鲁棒性。
- 深度神经网络物体识别策略与人类的协调
研究发现,尽管深度神经网络(DNNs)的成功主要是由于计算规模,而不是基于生物智能的洞见,但是随着精度的提高,DNNs 与人类视觉策略的一致性逐渐降低,但是神经谐振器的出现可以使 DNNs 与人类的视觉策略相一致并提高分类精度。
- 通用域自适应的子公司原型对齐
该研究提出了一种基于词袋模型的框架,通过学习中层的词汇原型以及词频直方图进行分类,从而避免了负迁移问题,并在三个常见的领域自适应与开放领域自适应识别基准测试中取得了最优表现。
- 基于知识图谱的上下文驱动视觉对象识别
通过将语境知识编码到知识图中,提高深度学习方法的鲁棒性,增强物体识别模型对于跨领域和真实世界场景的表现。
- RECALL: 无需回忆的连续学习用于目标分类
提出了一种名为 RECALL 的新型无训练回溯方法,可持续性地学习新的未见过的物体类别,采用回想流程对旧类别进行分类,采用新头部来适应新类别,同时提出了一个正则化策略来减轻遗忘,提出了包括方差的马氏损失,以适应可变密度的新旧类别差异,并在 - 重建引导的注意力提高神经网络的鲁棒性和形状处理能力
该研究建立了一种迭代编码器 - 解码器网络模型,利用重构上的反馈机制来加强前馈目标识别过程的重要信息,有效应对常见的图像扰动;研究还发现,该网络模型在对象识别方面,空间与特征化的注意力是相辅相成的,并可以解释人类的知觉误差。
- 利用哈达玛积方法实现低能耗的卷积神经网络(CNN)
该研究论文提出基于 Hadamard 方法的物体识别,以减少卷积层的能源消耗,在 MNIST 数据集上与卷积方法表现相似,而在 CIFAR10 数据集上由于数据复杂性和多通道性能下降,该方法可应用于其他计算机视觉任务,当卷积层的内核大小小于 - 神经形态学方法在图像处理与机器视觉中的应用
本文研究神经形态工程的应用,探讨图像处理中的视觉任务、异性扩散和神经形态视觉传感器的角色;介绍 memristors 在执行图像分割和实现人工视觉系统中的应用,讨论硬件加速器的使用,和异步信号传输协议,同时探讨计算机视觉进展可能直接受益于非 - 边缘实时视觉处理的超低功耗 TinyML 系统
通过在芯片上存储全部功能和权重,完全消除了离线内存访问的延迟和能耗,并提出了一种应用特定的指令集,以实现敏捷开发和快速部署。实验表明,基于该模型、NCP 和指令集的 TinyML 系统在实现物体检测和识别时,取得了可观的准确度,并实现了纪录 - FewSOL: 机器人环境中的小样本目标学习数据集
介绍了 Few-Shot Object Learning (FewSOL) 数据集,用于针对每个物体进行少量图像识别,研究结果表明目前机器人环境下还有一定提升空间,适用于研究分类、检测、分割、形状重构、姿态估计、关键点对应和属性识别等少量图 - ECCVSESS:基于缩放和滑动的显著性增强
提出了一种名为 SESS 的显著性改进方法,通过合并来自不同尺度不同区域的多个显著性图,使用通道权重和空间加权平均的新融合方案,以及引入预过滤步骤,提高了显著性生成的鲁棒性和效率,并在目标识别和检测基准测试中实现了显着的改进。
- CVPRRendNet:具有潜在空间渲染的统一 2D/3D 识别器
提出了一种名为 RendNet 的统一体系结构,它考虑了 VG / RG 表示形式并利用它们之间的相互作用,通过纳入 VG-to-RG 光栅化过程来实现 2D 和 3D 对象识别任务的最先进性能。
- CVPR学习三维物体的形状和布局,无需三维监督
本研究提出了一种基于多视图图像的方法,用于识别三维场景的对象形状和布局,通过在大型数据集上的实验,证明该方法可扩展应用于现实图像,并与依赖三维信息的方法相比,表现得更好。