- 在数据量不足的情况下提取结直肠组织的局部纹理特征用于分类
通过知识蒸馏将局部纹理信息从少量组织样本中提取出来,以改善标准 CNN 特征,并在低数据情况下实现了改进的分类性能。
- MMScribbleVC: 带有视觉类嵌入的医学图像标记辅助分割
通过引入多模态信息增强机制,结合基于标注线的方法和分割网络,提出了一种基于标注线监督的医学图像分割框架 (ScribbleVC),通过统一利用 CNN 特征和 Transformer 特征来提取更好的视觉特征,并在三个基准数据集上的实验结果 - DepthFormer:利用长程相关性和局部信息进行准确的单眼深度估计
该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型,以解决有监督单目深度估计的问题,实验结果表明,该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法,特别是在 - CVPR野外视觉属性预测学习
本研究提出一种用于预测对象视觉属性的大规模数据集,通过多标签分类解决对象属性预测问题,并采用多种技术来解决大量属性、标签稀疏性、数据不平衡和对象遮挡等问题,其中包括使用低级和高级 CNN 特征、多跳关注、重新加权和重新抽样技术、负标签扩展和 - 图像抠像的多尺度信息融合
本文提出了一个名为 MSIA-matte 的多尺度信息组装框架,旨在从单个 RGB 图像中提取高质量的 alpha mattes。通过提取高级语义作为主题内容和保留初始 CNN 特征来编码不同级别的前景表达,然后通过设计良好的信息组装策略将 - ICCV高性能统一卷积网络视觉目标跟踪
本文提出了一种端到端的框架来同时学习卷积特征并执行跟踪过程,即统一的卷积跟踪器(UCT),该跟踪器通过将特征提取器和跟踪过程都视为卷积操作进行联合训练,使得学习到的 CNN 特征与跟踪过程紧密耦合。在四个具有挑战性的跟踪数据集上进行了实验, - 视频动作识别的分层特征聚合网络
本文提出了一种介于 3D 卷积和 CNN 特征融合之间的方法,使用卷积结构学习适当的模式,同时保留了特征流,并检验了该方法在 TSN、TRN 和 ECO 模型上的效果。
- 基于整体表征的引导注意力网络用于场景文字识别
本研究提出一种基于全局特征引导注意力的二维卷积神经网络和序列解码器来识别场景文本的简单但强大方法,训练时仅使用单词级别的注释,相比循环神经网络,能够在前向和后向传递中获得 1.3x 至 9.4x 不等的加速。在评估的正常和不规则的场景文本基 - CVPRf-VAEGAN-D2: 一种适用于任意样本学习的特征生成框架
本文提出了一种结合 VAE 和 GANs 的条件生成模型,同时通过无条件鉴别器,学习未标记图像的边缘特征分布,在归纳和传递性学习设置中,对任意量少量学习问题进行处理,并在五个数据集中建立了新的零 - 阈值学习的最新技术。同时,证明学习到的特 - 自动识别野生大象
本文结合目标部位定位、CNN 特征和支持向量机分类,建立了一个系统,通过少量的图片来识别大量的大象。系统在含有 2078 张 276 只大象的数据集上测试,最高测试准确率达到 56%和 80%,采用多张图片技术后测试准确率为 74%和 88 - CVPR用于零样本学习的特征生成网络
该研究提出使用生成对抗网络(GAN)来 “合成” 零样本类别的 CNN(卷积神经网络)特征,从而应对通用零样本学习任务中已有的数据不平衡问题。实验结果表明,该方法在多个数据集上的表现均显著优于现有方法。
- 卷积网络特征提取行为研究
该研究旨在探讨深度卷积神经网络中的各个特征的辨别力以及应用它们进行知识表示和推理的可能性,并通过统计学方法提供了新的见解和阈值方法来减少特征中的噪声。
- 深度本地视频特征用于动作识别
探讨使用 CNN 特征表示整个视频以用于人类动作识别的问题,通过提取局部特征并将它们聚合成全局特征,将另一个映射函数用于将全局特征映射到全局标签
- ICCV具有类别一致特征和测地线距离传播的共定位
本文提出了一种使用 CNN 特征和几何距离进行共定位的方法,用于在没有负样本的情况下建立物体检测器,并在多个基准测试中实现了最先进的性能表现,并且不需要区域提议或物体检测器,并可以基于仅在图像分类任务上纯粹预训练的 CNN 进行。
- ImageNet 对于迁移学习的优势
本文探讨了 ImageNet 数据集对于学习优秀通用特征的关键属性,发现大多数对预训练数据集的选择的改变不会显著影响迁移学习的表现。在相同的训练类别数量下,分类粗细程度或每个类别样例数目的增加对学习特征的质量影响大于类别数量的增加。
- 可扩展实例搜索的局部卷积特征包
本文提出了一个基于卷积神经网络的局部特征编码和基于词袋模型的实例检索方法,该方法将每个卷积层中的局部激活函数数组映射到可视化词汇中,从而实现了空间重新排序和检索的目的,并在 Oxford 和 Paris buildings benchmar - 视觉问答的简单基线
提出了用于视觉问题回答的简单词袋基线模型,使用来自问题的单词特征和图像的 CNN 特征进行拼接以预测答案并在挑战性的 VQA 数据集上显示了与许多最新方法使用递归神经网络相当的性能。同时提供了交互式 Web 演示和开源代码以探索模型的优缺点 - ICCV利用深度 CNN 特征提取具有区分性元对象进行场景分类
本研究介绍了一个基于深度 CNN 特征和区域提议技术的新型 pipeline,旨在从场景图像中提取判别性的视觉对象和局部区域进行分类,经过无监督和弱监督学习从大量高质量的 patches 中筛选出代表特定类别的判别性 objects 和 p - 学习跟踪以进行时空动作定位
这篇论文提出了一种有效的方法,通过联合静态和运动的 CNN 特征对视频进行帧级别的检测,并通过目标追踪、运动直方图和滑动窗口法实现了时空行为定位,其准确性比现有方法提高了 15%至 12%不等。
- CVPR卷积特征屏蔽用于联合目标和物体分割
通过在卷积特征映射上采用掩蔽方法,本文提出了一种利用形状信息的方法来进行语义分割,实现了物体和场景的处理,并在 PASCAL VOC 数据集和新的 PASCAL-CONTEXT 数据集上展示了最先进的结果,具有令人信服的计算速度。