Apr, 2024

SAGHOG:自监督自编码器生成 HOG 特征进行作家检索

TL;DR介绍了 SAGHOG,一种使用二值化输入图像的 HOG 特征进行自监督预训练的书写者检索策略。通过应用 'Segment Anything' 技术从各种数据集中提取手写文本,利用预训练的视觉转换器对手写文本的掩码补丁进行重构来进行预处理。然后,通过在预训练编码器后附加 NetRVLAD 编码层对 SAGHOG 进行微调。在三个历史数据集 Historical-WI、HisFrag20 和 GRK-Papyri 上评估了我们的方法,证明了 SAGHOG 在书写者检索方面的有效性。此外,对我们的架构进行了消融研究,并评估了非监督和监督微调。值得注意的是,在 HisFrag20 上,SAGHOG 的 mAP 达到了 57.2%,比现有技术水平高出 11.6%,展示了其在具有挑战性的数据上的鲁棒性;在小数据集 GRK-Papyri 上,我们实现了 58.0%的 Top-1 准确率,表现出竞争性。