基于监督式中层特征的文字图像表示

Oct, 2014

基于监督式中层特征的文字图像表示

Supervised mid-level features for word image representation

Albert Gordo

TL;DR本论文研究了对单词图像进行描述性、稳定性和紧凑性表示的问题，提出了一种基于学习本地中层特征的方法，并与最新的单词属性框架相结合，得到了可与全球描述符相媲美的结果。

Abstract

This paper addresses the problem of learning word image representations: given the cropped image of a word, we are interested in finding a descriptive, robust, and compact fixed-length representation. machine learning techniques can then be supplied with these representations to produc

word image representation machine learning local mid-level features character bounding box word retrieval

发现论文，激发创造

学习图像检索的超级特征

本文介绍了一种基于超级特征的深度图像检索架构，只需要图像标签即可训练。超级特征由迭代的注意模块构建，通过对 Super-features 实施对比损失来匹配图像。与局部特征相比，这种方法在存储空间方面具有显着优势，并在常见地标检索基准上表现出比现有方法更好的效果。

Jan, 2022

深度图像检索：学习全局图像表示以用于图像搜索

本文提出了一种新方法进行实例级别的图像检索，通过聚合多个基于区域的描述符为每个图像生成全局紧凑的固定长度表示，该方法基于一个特定图像检索任务训练的深度架构，利用排序框架来学习卷积和投影权重，并采用区域建议网络来学习应汇集哪些区域以形成最终的全局描述符。

Apr, 2016

利用中层深度表示预测野外人脸属性

本文考虑利用中层卷积网络特征进行面部属性预测，与经过微调的高层抽象相比，中层深度表示的预测准确性更高，可同时实现面部识别和属性预测的单一深度网络。

Feb, 2016

通过预测视觉单词包学习表征

本文提出了一种基于视觉词汇的自监督学习方法，通过将图像特征映射量化为视觉词汇，实现了对图像的分离表示，通过 Bag-of-Words 表示学习有用的下游图像理解特征，与类似自然语言领域的方法相比，该方法在目标检测和分类上表现出更好的迁移能力。

Feb, 2020

图像搜索中深度局部和全局特征的统一

该文提出了一个名为 DELG 的新模型，将全局和本地特征统一为一个深度模型，同时提出了一种自编码器的降维技术，该模型在图像检索和识别方面的表现都达到了最新的水平。

Jan, 2020

构建层次化图像标签双模态表示以备选词标签

本论文介绍了我们针对 ICML 的多模式学习挑战的解决方案，包括构建三级表示、选择正确的标签词、提出双模自编码器等，最终在私有测试集上取得了 100％的平均准确率，排名第一。

Jul, 2013

可解释的、全局最优的基于图像概念的文本 grounding 预测

本文研究了文本 grounding 的问题，提出了一种统一的框架来有效地搜索所有可能的 bounding box 提议，通过训练的模型参数作为 word-embedding，实现了空间 - 图像关系的捕捉和解释性，实验表明本方法在 Flickr 30k Entities 和 ReferItGame 数据集上的表现要好于当前最先进的方法。

Mar, 2018

可几何映射的图像特征

本文介绍了一种机器学习方法，用于学习基于图像检索的定位图像特征，通过引导学习过程，使图像特征与几何距离成比例，并在实验中表现出更好的定位准确度以及在缺乏参考图像的情况下估计查询序列轨迹的能力。

Mar, 2020

通过全局和本地图像 - 语言关联改进个体重新识别的深度视觉表示

本研究提出了一种利用自然语言描述作为附加训练监督的方法来有效地学习视觉特征。通过建立全局和局部图像 - 语言关联来实现语义一致性，该方法不仅能够学习更好的全局视觉特征，还能够强制对局部视觉和语言特征进行语义一致性的限制，从而实现了对于特定个体较为紧凑和语义的描述。在实验中，我们证明了语言作为训练监督在两种关联方案下具有有效性，并且在不使用任何辅助信息的情况下实现了最新的技术性能，比其他图像 - 语言交互的联合嵌入方法表现更出色。

Aug, 2018

本地 - 全局自监督视觉表示学习

本研究探索了将图像级别与局部级别的判别相结合的自我监督表示学习方法，通过同时观察局部和全局视觉特征来增强学习表示的质量。我们提出了一个简单而有效的补丁匹配算法，借助视觉变换器（ViT）作为骨干网络，从而生成图像级别和补丁级别的表示。结果显示，我们的方法在图像分类和下游任务中表现优于最先进的图像级别表示学习方法。

Oct, 2023