SelfDocSeg：面向文档分割的自监督基于视觉的方法

May, 2023

SelfDocSeg：面向文档分割的自监督基于视觉的方法

SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation

Subhajit Maity, Sanket Biswas, Siladittya Manna, Ayan Banerjee, Josep Lladós...

TL;DR使用自我监督技术，将文档图像中的伪造布局用于预先训练图像编码器，以在无监督的框架内学习文档对象的表示和定位，然后使用目标检测模型进行微调，该流水线在文档布局分析中表现卓越。

Abstract

document layout analysis is a known problem to the documents research community and has been vastly explored yielding a multitude of solutions ranging from text mining, and recognition to graph-based representation, visual feature extraction, \emph{etc}. However, most of the existing w

document layout analysis self-supervision self-supervised document segmentation image encoder object detection

发现论文，激发创造

SelfDoc: 自我监督文件表示学习

SelfDoc 是一个文档图像理解的任务无关的预训练框架，利用文档的位置、文本和视觉信息，并建模内容块之间的上下文关系，提出了一种新的跨模态学习模型，优于现有模型，同时具有自适应的视觉语言融合机制并应用自监督模型预训练，与以前作品相比，使用较少的文档图片达到更好的性能。

Jun, 2021

无监督文档布局分析

通过基于视觉的方法，本研究利用未标记的网络文档图像生成简单的对象掩码，通过无监督训练迭代持续改进该模型的性能，从而显著提高文档布局分析的准确性和效率。

Jun, 2024

DocSegTr: 一个基于实例级端到端的文档图像分割 Transformer

该研究提出了一个基于 Transformer 的模型 ——DocSegTr，用于端到端处理具有复杂排版的文档图像的实例级分割。实验结果表明，该模型对于文档分割表现优于现有的最先进方法，可作为文档图像实例级识别任务的有前途的基准。

Jan, 2022

自监督预训练用于二维医学图像分割

本文探讨了在医学图像分割中监督学习与自监督学习的预训练方法，发现在自监督学习方法中，使用自然图像和目标领域特定图像进行预训练可以实现最快和最稳定的收敛，在低数据场景下，将图像分类网络预训练在 ImageNet 上可以获得最佳精度。

Sep, 2022

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

有限数据注释的自监督 RCNN 用于医学图像分割

本文提出一种基于自监督预训练的医学图像分析深度学习训练策略，通过将不同扭曲应用于图像的随机区域，预测扭曲的类型和信息的损失，并使用改进的 Mask-RCNN 体系结构定位扭曲位置和恢复原始图像像素，将该方法用于分割任务，能够提高 Dice 分数 20%。

Jul, 2022

自监督少样本语义分割：一种无需标注的方法

借鉴谱分解方法，将图像分解问题视为图划分任务，并通过特征亲和力矩阵的拉普拉斯矩阵的特征向量分析来估计感兴趣对象的分布；提出一种新颖的自监督式 FSS 框架，不依赖于任何标注，并通过利用从支持图像获得的特征向量自适应地估计查询掩码，从而消除了手动注释的需求，特别适用于具有有限标注数据的医学图像；引入了多尺度大卷积核注意力模块，进一步提高了对支持图像提供的信息进行查询图像解码的能力，通过选择性地强调相关特征和细节，改善了分割过程并有助于更好的物体勾边；在自然和医学图像数据集上的评估结果展示了我们方法的高效性和有效性。

Jul, 2023

利用文本区域增强的面向对象分层表示的自我监督场景文本分割

通过自我监督场景文本分割算法，基于对象为中心的分割方式将图像分割为文本和背景层，改进网络对文本的敏感性，以解决像素级标签和合成数据集的问题，取得了比现有算法更好的效果。

Aug, 2023

向机器监督的转变：高效注释的自监督学习用于自动医学图像分割和分类

自我监督学习和半监督学习在医学影像领域的新进展，通过 S4MI（自我监督和半监督医学影像）管道，使用 10% 标签注释的自我监督学习在大多数数据集的分类任务上表现优于 100% 标签注释，而使用 50% 标签数较少的半监督方法在三个数据集的分割任务上表现更好。

Nov, 2023

SegLoc”: 针对安全检查 X 射线图像的密集预测任务量身定制的新型视觉自监督学习方案的研究

使用自我监督学习方案对人工智能进行了重要进展，将对比学习整合到现有的自我监督学习模型中，在计算机视觉领域取得了显著的进展，通过提出的模型 Segmentation Localization 对密集预测的语义分割任务进行了评估，并通过实现每个类别一个队列的思想在 MoCo-v2 中避免了假阴性对。

Oct, 2023