视频语义分割的粗到细特征挖掘
引入了一种基于描述指导的人脸识别(CGFR)框架来提高商品化人脸识别系统(COTS FR)性能,通过引入面部描述信息作为辅助信息来改善性能,通过使用上下文特征聚合模块(CFAM)和文本特征细化模块(TFRM)来有效地处理文本和面部特征间的异构性,显著提高了 ArcFace 在多模态 CelebA-HQ 数据集上的验证和识别性能。
Aug, 2023
本研究提出了一种基于主题建模策略来捕获图像高层次上下文信息的新型图像匹配方法,并使用池化和合并注意力模块来提高特征匹配的效率,能够在节约计算成本的同时,在具有挑战性的情况下,与最先进的方法相比保持更高的图像匹配精度。
Jul, 2023
本文提出了一种新的鲁棒性编码器解码器结构的神经网络,使用少量的训练示例进行端到端的训练,通过特征融合在 Feature Pooling Module 中提取多尺度特征,实现对相机运动的鲁棒特征池化,免去多尺度输入的需求,通过 CDnet2014、SBI2015 和 UCSD Background Subtraction 数据集的实验表明,所提出的方法的整体 F-Measure 平均值优于现有所有最先进的方法。
Aug, 2018
通过主题建模方法对高级语境进行编码以提高图片匹配的鲁棒性,并在室内和室外数据集上进行了广泛实验,证明该方法在具有挑战性的情况下优于其他最先进的方法。
Jul, 2022
FineCo 使用 Fine-grained Contrastive Loss 对视频帧进行抽样,以更好地学习视频和语言表示,从而提高跨模态对应性和在文本 - 视频检索和视频问答数据集上取得了有竞争力的成果,尤其是在 YouCookII 上实现了最先进的性能。
Oct, 2022
本文提出了一种 Context Encoding Module 方法,在原有 FCN 框架的基础上加入了全局场景语义信息来优化语义分割结果,在 PASCAL-Context、PASCAL VOC 2012 和 ADE20K 数据集上取得了最新最优的成果,并且通过在 CIFAR-10 数据集上进行对比实验表明该方法可以用来改善相对浅层网络的特征表示效果。
Mar, 2018
本文介绍了一种非监督框架来提取视频表征的语义丰富特征,并提出了一个深度卷积神经网络来分离运动、前景和背景信息。实验结果表明,该网络可以在视频中成功分割前景和背景,并基于分离的运动特征更新前景外观。此处提供的预训练方法可以优于随机初始化和自动编码器预训练,促进了区分性分类任务。
Jul, 2017
本文提出了一种视频实例分割方法 - ComFeat,该方法采用了新的特征聚合方法、注意力机制以及 siamese 设计,可以解决单帧特征难以应对运动模糊和外观变化等问题,同时在 YouTube-VIS 数据集上得到了有效验证。
Dec, 2020