- 应用神经网络的视频场景定位识别
该论文使用人工神经网络研究了通过小型重复拍摄地点(如电视连续剧)的视频序列进行场景识别的可能性,并通过预训练的单图像预处理卷积网络选择每个场景的一组帧,通过神经网络的后续层分类场景位置。研究发现只有部分方法适用于该任务。
- 语义嵌入相似性原型用于场景识别
本论文通过引入统计策略,利用类别级别的语义表示来探索场景内不同类别之间的关联,进而构建一个相似性原型,从梯度标签软化和批级对比损失的角度提出了两种使用相似性原型来支持网络训练的方法,对多个基准进行了全面评估,结果表明我们的相似性原型能够提高 - EnTri: 用三层表示的集成学习进行可解释的场景识别
通过集成学习、多层次视觉特征和图文解释,提出了一个名为 EnTri 的场景识别框架,旨在提高分类准确性并增强透明度和可解释性。实验结果表明,EnTri 在 MIT67、SUN397 和 UIUC8 数据集上的准确率分别为 87.69%、75 - 使用必要条件分析识别辅助或对抗任务以进行对抗多任务视频理解
本文提出了对多任务学习的一般化认识,通过同时引入模型应该擅长处理的辅助任务和模型不应该擅长处理的对抗任务,并采用基于数据的必要条件分析 (NCA) 方法来决定这些任务属于什么类型。我们提出的 AMT (Adversarial Multi-T - 场景识别中的目标、属性和类别学习
本文旨在提高场景识别的准确性,通过提取对象包含的属性和分类标签信息,提出了一种多任务属性 - 场景识别(MASR)网络,采用部分监督注释策略大大降低了人工干预,从而实现了更高效的属性标注。实验结果表明,MASR 学习到了更具区分力的表示,与 - ICCV跨域多模态 RGB-D 场景识别
本文提出了一种自适应景观识别方法,该方法使用 RGB 和深度图像之间的自监督转换,以解决多模态数据集之间的领域转移问题,并证明其在不同相机采集的数据之间具有很强的泛化能力。
- CVPR双向投影网络用于跨维度场景理解
提出一种双向投影网络(BPNet),它包括 2D 和 3D 子网络,通过双向投影模块允许这两个视觉领域之间的互动,实现更好的场景识别。该算法在 2D 和 3D 语义分割方面,取得了 ScanNetV2 基准的最佳性能。
- 原型不可知场景布局的场景识别
本文提出了一种无原型构建的场景布局方法,可以灵活地捕捉场景图像中的各种空间特征,并通过图卷积将两种拓扑结构(在空间和语义相似性维度中形成的)纳入图像表示中,最终达到了在 MIT67 和 SUN397 数据集上取得最先进结果,同时也证明了该方 - 语义感知场景识别
该论文提出了一种基于多模式 CNN 的场景识别新方法,结合图像和上下文信息,通过注意力机制来强化学习和增强场景的辨别能力,实验证明该方法性能超过所有现有的先进方法,并显著减少了网络参数。
- MM从火山到玩具店:自适应区域发现场景识别
本文提出了一种自适应的辨别区域发现方法 Adi-Red,用于场景识别,其利用预训练的 CNN 分类器直接发现区分性图像区域,避免引入噪声,同时又不会错过重要信息,在场景识别基准数据集 SUN397 上成绩优于现有技术。
- CVPR交通场景中人员的长期车载预测(不确定性下)
提出了一种新的模型,该模型利用场景识别、长期预测和不确定性建模技术,可以精确地预测高度动态人群场景中的 1 秒内的自行车轨迹,结果表明该方法可以提高人群轨迹预测的准确性。
- NIPS将输入概念与卷积神经网络的决策联系起来
本文探究了卷积神经网络 CNN 中通过对输入进行概念识别达到决策的关系,通过考察场景识别 CNN 对 ADE20k 数据集的训练结果,找到并评分给定输入概念的最小分布式表示强度,证实了概念识别对 CNN 决策具有影响力,经常出现在少数场景中 - 结合多种线索的视觉 Madlibs 问题回答
本论文提出一种从视觉 Madlibs 数据集回答填空多项选择题的方法,通过使用针对特定任务训练的网络的组合,结合特征提取的空间支持,将每个特征与候选答案映射到联合嵌入空间并解决优化问题,以学习组合来自多个提示的 CCA 模型的分数以选择最佳 - 基于多分辨率 CNN 的辅助知识异构场景分类
本文提出了一种多分辨率卷积神经网络架构来捕捉多级场景信息,并设计了两种知识引导的消歧技术来解决标签模糊性问题,实验结果证明该方法在三个大型图像数据集上获得了最先进的结果,并在两个主要的场景识别挑战中获得了第二和第一的成绩。
- 基于弱监督的 PatchNets:描述和聚合局部图像块进行场景识别
本文提出了一种基于 PatchNet 模型与 VSAD 特征表达方法的图像场景识别混合表示方案,并在 MIT Indoor67 与 SUN397 两个基准数据集上取得了最新的最优性能结果。
- 基于混合 CNN 和基于词典模型的场景识别与领域自适应
在本文中,我们提出了将卷积神经网络与基于字典的模型相结合,用于场景识别和视觉域自适应,并且我们发现所提出的混合表示法相较于仅使用卷积神经网络模型具有更好的表现。
- 场景识别的本地监督深度混合模型
本文提出了一种新的局部监督深度混合模型,通过增强和探索卷积特征来实现场景识别,并将特征编码成局部中层表示,与高层特征协同使用以取得出色的性能。
- Places205-VGGNet 场景识别模型
本文介绍了三种使用 Caffe 工具包的 VGGNet 模型在 Places205 数据集上的训练方法,验证了它们在 MIT67,SUN397 和 Places205 三个数据集上取得的最先进的性能。
- ICCV学习与自我运动相关联的图像表示
通过利用本体神经信号的无监督约束来规范化卷积神经网络的特征学习,以学习关于本体视角下图像的视觉表征,进而实现一些视觉认知任务的显著性能提升,尤其是在自动驾驶平台捕获的无人机图像中进行的大规模场景识别。