SAGHOG：自监督自编码器生成 HOG 特征进行作家检索

Apr, 2024

SAGHOG：自监督自编码器生成 HOG 特征进行作家检索

SAGHOG: Self-Supervised Autoencoder for Generating HOG Features for Writer Retrieval

Marco Peer, Florian Kleber, Robert Sablatnig

TL;DR介绍了 SAGHOG，一种使用二值化输入图像的 HOG 特征进行自监督预训练的书写者检索策略。通过应用 'Segment Anything' 技术从各种数据集中提取手写文本，利用预训练的视觉转换器对手写文本的掩码补丁进行重构来进行预处理。然后，通过在预训练编码器后附加 NetRVLAD 编码层对 SAGHOG 进行微调。在三个历史数据集 Historical-WI、HisFrag20 和 GRK-Papyri 上评估了我们的方法，证明了 SAGHOG 在书写者检索方面的有效性。此外，对我们的架构进行了消融研究，并评估了非监督和监督微调。值得注意的是，在 HisFrag20 上，SAGHOG 的 mAP 达到了 57.2％，比现有技术水平高出 11.6％，展示了其在具有挑战性的数据上的鲁棒性；在小数据集 GRK-Papyri 上，我们实现了 58.0％的 Top-1 准确率，表现出竞争性。

Abstract

This paper introduces saghog, a self-supervised pretraining strategy for writer retrieval using HOG features of the binarized input image.

saghog self-supervised pretraining strategy writer retrieval handwriting recognition netrvlad

发现论文，激发创造

面具特征预测用于自监督视觉预训练

本研究提出了 Masked Feature Prediction (MaskFeat) 方法，它使用随机遮挡的方式自我监督预训练视频模型，主要利用 Histograms of Oriented Gradients（HOG）这种手工特征描述符，探讨了 5 种不同的特征，并发现其中 HOG 在性能和效率方面表现出色，该方法在无需使用额外模型权重或监督的情况下，使用未标记视频预训练，可以实现 86.7％的 Kinetics-400 分类准确率，拥有出色的表现。

Dec, 2021

基于自监督学习的手写验证

我们研究了应用于手写验证任务上的自监督学习方法，对比了多种生成式对比式自监督学习方法和手工特征提取器以及有监督学习在 CEDAR AND 数据集上的表现。结果显示，基于 ResNet 的变分自动编码器（VAE）在准确度上超越其他生成式方法，达到 76.3% 的准确度；而使用方差不变协方差正则化（VICReg）进行微调的 ResNet-18 在准确度上超越其他对比式方法，达到 78% 的准确度。使用预训练的 VAE 和 VICReg 进行下游的写作者验证任务，相对于 ResNet-18 有监督基准模型和 10% 的写作者标签，准确度相对提高了 6.7% 和 9%。

May, 2024

自注意力生成对抗网络

本文介绍了一种基于自注意力机制的生成对抗网络（SAGAN），它能够在图像生成任务中实现关注驱动的远距离依赖关系建模，并通过对 GAN 生成器实施谱归一化技术，取得了对图像生成任务来说最好的表现。

May, 2018

ScrabbleGAN：半监督变长手写文本生成

介绍一种基于半监督学习的手写文本图像合成方法，该方法可生成任意长度的词汇风格多样的手写文本图像，并实现其风格的操纵，能够提高光学字符识别系统的性能。

Mar, 2020

通过自回归编码的随机片段自监督学习（RandSAC）

本文提出了一种新的自监督图像特征学习策略：随机分段自回归编码 (RandSAC)，并探讨了不同设计选择对这种训练策略的影响，证明随机分段在空间长距离 (跨段) 和短距离 (段内) 预测上的分布显著提高了性能，且不仅仅适用于基础 Transformer，还可以通过添加可学习的跳过连接来进一步提高性能。

Mar, 2022

使用自编码器和连体网络进行在线手写签名验证

本文提出了一种新颖的、面向自动签名验证任务的独立于作者的全局特征提取框架，其中包括一个自编码器和一个连体网络来实现样本的建模和分类，利用注意机制和降采样的技术，提高了框架的准确度，其简单性使其计算成本低，并且可以在 GPU、TPU 等设备上并行使用。在两个数据集上的实验表明，该方法相对于最佳报告结果取得了显著的准确度提高。

Dec, 2017

Hyper-SAGNN: 一种基于自注意力的超图神经网络

本文介绍了一种新的基于自注意力机制的图神经网络 Hyper-SAGNN，可用于不同类型的超图及其不同的学习任务，包括各种基准网络数据集以及基因组学中的单细胞 Hi-C 数据集。该模型在传统任务上优于现有模型，在新任务 “outsider identification” 上表现优异。

Nov, 2019

SE-GAN: 利用骨架增强的 GAN 模型生成毛笔手写字体

本文提出了一种基于 GAN 的图像翻译模型，该模型结合了骨骼信息，用于生成手写字体。实验结果表明，该模型的生成效果优秀。

Apr, 2022

基于笔画的自编码器：高效零样本汉字识别的自监督学习模型

在本文中，我们介绍了一个基于笔画的自编码器方法，用于对汉字的形态结构进行建模和预测，在零样本识别和增强汉字表示方面，取得了比现有方法更好的实验效果。

Jul, 2022

SelfDocSeg：面向文档分割的自监督基于视觉的方法

使用自我监督技术，将文档图像中的伪造布局用于预先训练图像编码器，以在无监督的框架内学习文档对象的表示和定位，然后使用目标检测模型进行微调，该流水线在文档布局分析中表现卓越。

May, 2023