自监督视觉 Transformer 在作家检索中的应用

Sep, 2024

自监督视觉 Transformer 在作家检索中的应用

Self-Supervised Vision Transformers for Writer Retrieval

Tim Raven, Arthur Matei, Gernot A. Fink

TL;DR本研究解决了传统作家检索中手工特征和卷积神经网络特征应用不足的问题。我们提出了一种新方法，利用自监督学习从视觉 Transformer 提取特征，并通过 VLAD 编码进行聚合。结果显示，该方法在历史文件集上达到了新的最佳性能，展示了其在现代数据集上的广泛适用性。

Abstract

While methods based on Vision Transformers (ViT) have achieved state-of-the-art performance in many domains, they have not yet been applied successfully in the domain of Writer Retrieval. The field is dominated b

发现论文，激发创造

训练视觉Transformer进行图像检索

本文提出一种基于变换器的图像检索方法，通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练，结合对比损失和微分熵正则化，相比于卷积方法，提高了图像检索性能，特别是对于短向量表示和低分辨率图像。

Feb, 2021

矢量化与光栅化：自监督学习用于草图和手写

本研究提出了两种用于自我监督特征学习的跨模态翻译预训练任务：矢量化和光栅化，这两种方法可以同时为矢量和光栅基于手绘数据进行下游分析提供编码器模块，本文参考了双重表述的手写和素描数据。实证结果表明我们的方法优于现有的单模态和多模态自我监督方法。

Mar, 2021

自我监督视觉Transformer训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督ViT训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021

DeiT III：ViT 的复仇

本文改进了一种用于训练Vision Transformer(ViT)的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为ViT的自我监督方法提供了更好的基线。

Apr, 2022

评估人工合成预训练在手写处理任务中的应用

本文探讨了在合成单词图像上进行大规模预训练，以提高四项基准笔迹分析任务的性能。作者利用全监督目标对简单的卷积神经网络进行训练，得到编码笔迹风格的图像向量表示，进而实现了笔迹风格的作者检索、鉴别、验证、分类任务，并展示了该预训练策略提取了作者风格的丰富表征，可以在这些任务中得到与任务特定的最先进方法相竞争的结果。

Apr, 2023

使用NetRVLAD和图相似度重新排名的无监督作家检索

本文提出了一种基于无监督方法的作者检索方法，其采用SIFT描述符进行聚类，并通过NetRVLAD进行编码，同时提出了一种基于图的重新排序算法（SGR）以提高检索性能，该方法在两个历史数据集上表现出色。

May, 2023

视觉Transformer需寄存器

提供额外的令牌以填补低信息背景区域中高范数令牌的内部计算，从而修复监督和自监控模型的问题，实现密集视觉预测任务的自监控视觉模型的最新技术，使用更大模型进行对象发现，为下游视觉处理提供更平滑的特征图和注意力图。

Sep, 2023

分析自监督视觉变压器的局部表征

自本文中，我们对各种自监督视觉变换器（ViTs）进行了比较分析，重点研究了它们的局部代表能力。我们设计了一个评估框架，分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现，基于对比学习的方法如DINO产生了更通用的局部表示，可以立即应用于无参数调整的下游任务，而掩蔽图像建模的方法中学习的嵌入具有高方差特征，对于大多数下游任务没有有用信息。此外，通过对本工作的基准和Scale-MAE的分析，我们证明了移除这些高方差特征对k-NN算法的改进。最后，我们发现DINOv2在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的DINO模型更差。

Dec, 2023

使用卷积神经网络激活特征的离线作者识别

通过使用卷积神经网络的激活特征作为本地描述符，结合高斯混合模型超向量编码和KL-Kernel归一化，我们提出了一种用于笔迹识别的全局描述符方法，在ICDAR 2013基准数据库和CVL数据集上进行了评估，在挑战性的双语ICDAR数据集上改进了0.21个mAP的绝对值。

Feb, 2024

HTR-VT：基于视觉变换器的手写文本识别

本研究针对手写文本识别中的数据标注稀缺问题，提出了一种高效的数据利用的视觉变换器方法。通过采用卷积神经网络提取特征并引入焦点感知最小化优化器，显著提高了模型性能。此外，采用的跨度掩码技术作为正则化手段，在小数据集上表现出色，并在LAM数据集上建立了新的基准。

Sep, 2024