基于监督式中层特征的文字图像表示
本文介绍了一种基于超级特征的深度图像检索架构,只需要图像标签即可训练。超级特征由迭代的注意模块构建,通过对 Super-features 实施对比损失来匹配图像。与局部特征相比,这种方法在存储空间方面具有显着优势,并在常见地标检索基准上表现出比现有方法更好的效果。
Jan, 2022
本文提出了一种新方法进行实例级别的图像检索,通过聚合多个基于区域的描述符为每个图像生成全局紧凑的固定长度表示,该方法基于一个特定图像检索任务训练的深度架构,利用排序框架来学习卷积和投影权重,并采用区域建议网络来学习应汇集哪些区域以形成最终的全局描述符。
Apr, 2016
本文提出了一种基于视觉词汇的自监督学习方法,通过将图像特征映射量化为视觉词汇,实现了对图像的分离表示,通过 Bag-of-Words 表示学习有用的下游图像理解特征,与类似自然语言领域的方法相比,该方法在目标检测和分类上表现出更好的迁移能力。
Feb, 2020
该文提出了一个名为 DELG 的新模型,将全局和本地特征统一为一个深度模型,同时提出了一种自编码器的降维技术,该模型在图像检索和识别方面的表现都达到了最新的水平。
Jan, 2020
本论文介绍了我们针对 ICML 的多模式学习挑战的解决方案,包括构建三级表示、选择正确的标签词、提出双模自编码器等,最终在私有测试集上取得了 100%的平均准确率,排名第一。
Jul, 2013
本文研究了文本 grounding 的问题,提出了一种统一的框架来有效地搜索所有可能的 bounding box 提议,通过训练的模型参数作为 word-embedding,实现了空间 - 图像关系的捕捉和解释性,实验表明本方法在 Flickr 30k Entities 和 ReferItGame 数据集上的表现要好于当前最先进的方法。
Mar, 2018
本文介绍了一种机器学习方法,用于学习基于图像检索的定位图像特征,通过引导学习过程,使图像特征与几何距离成比例,并在实验中表现出更好的定位准确度以及在缺乏参考图像的情况下估计查询序列轨迹的能力。
Mar, 2020
本研究提出了一种利用自然语言描述作为附加训练监督的方法来有效地学习视觉特征。通过建立全局和局部图像 - 语言关联来实现语义一致性,该方法不仅能够学习更好的全局视觉特征,还能够强制对局部视觉和语言特征进行语义一致性的限制,从而实现了对于特定个体较为紧凑和语义的描述。在实验中,我们证明了语言作为训练监督在两种关联方案下具有有效性,并且在不使用任何辅助信息的情况下实现了最新的技术性能,比其他图像 - 语言交互的联合嵌入方法表现更出色。
Aug, 2018
本研究探索了将图像级别与局部级别的判别相结合的自我监督表示学习方法,通过同时观察局部和全局视觉特征来增强学习表示的质量。我们提出了一个简单而有效的补丁匹配算法,借助视觉变换器(ViT)作为骨干网络,从而生成图像级别和补丁级别的表示。结果显示,我们的方法在图像分类和下游任务中表现优于最先进的图像级别表示学习方法。
Oct, 2023