用于改进历史文献图像增强的逐层令牌到令牌转换网络

Dec, 2023

用于改进历史文献图像增强的逐层令牌到令牌转换网络

A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical Document Image Enhancement

Risab Biswas, Swalpa Kumar Roy, Umapada Pal

TL;DR提出了一种基于 Tokens-to-token 视觉变换器的新型文档二值化编码 - 解码器架构 T2T-BinFormer，通过逐步分词技术捕捉图像的局部信息，优于现有的 CNN 和 ViT 方法，在各个基准测试中表现出更高的效果。

Abstract

document image enhancement is a fundamental and important stage for attaining the best performance in any document analysis assignment because there are many degradation situations that could harm document images, making it more difficult to recognize and analyze them. In this paper, w

document image enhancement t2t-binformer document binarization tokens-to-token vision transformer local information

发现论文，激发创造

DocBinFormer：一种用于有效文档图像二值化的两级 Transformer 网络

提出了一种名为 DocBinFormer（文档二值化变换器）的基于视觉变换器的两级架构，用于有效地对文档图像进行二值化分析，该架构利用双级变换器编码器从输入图像中有效地捕获全局和局部特征表示，从而在系统生成和手写文档图像的分析中取得了改进的结果，并在 DIBCO 和 H-DIBCO 基准数据集上超过了现有技术的表现。

Dec, 2023

Tokens-to-Token ViT: 在 ImageNet 上从头开始训练视觉 Transformer 模型

本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器，用于图像分类，通过对输入图像进行递归聚合邻近的 Tokens，结合本地结构进行建模，从而提高模型训练样本效率，并减少模型参数和计算量，最终在 ImageNet 数据集上取得了优秀的表现。

Jan, 2021

利用空间和频率的二值化文件处理

基于快速傅里叶卷积，提出了一种能够处理文档图像二值化问题的替代方案，克服了标准卷积在建模全局信息方面的局限性，同时比 Vision Transformer 需要更少的参数。

Apr, 2024

完全卷积神经网络实现的文件图像二值化

该研究论文介绍了一种基于全卷积网络的二值化方法，该方法在历史手稿图像及其他领域如棕榈叶手稿的二值化任务中具有良好的性能表现，并在多个指标上优于竞争对手。作者还分析了不同超参数、数据集及输入特征对算法性能的影响。

Aug, 2017

DeepOTSU：使用迭代深度学习进行文档增强和二值化

本文提出了一种新的迭代深度学习框架，并将其应用于文档增强和二值化。通过学习文档图像中的退化过程，该网络能够逐步细化输出，实现文档增强。通过在全局或本地阈值下使用增强的图像，可以获得二值化图。实验结果表明，所提出的方法适用于可视化和基于 Otsu 阈值的二值化处理。

Jan, 2019

各种基于深度学习的文档图像二值化方法的公正评估

文档图像二值化是文档分析领域重要的预处理步骤，但没有进行系统比较。本研究通过相同评估协议评估了不同深度学习方法在各种 DIBCO 数据集上的表现，发现 DE-GAN 在 DIBCO2013 数据集上效果最好，DP-LinkNet 在 DIBCO2017 数据集上表现最佳，2-StageGAN 在 DIBCO2018 数据集上表现最佳，SauvolaNet 在 DIBCO2019 数据集上胜过其他方法。为了保证可重现性并简化未来的二值化评估，我们公开了代码、所有模型和评估。

Jan, 2024

视觉 Transformer：面向计算机视觉的基于令牌的图像表示和处理

本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量，从而在 ImageNet top-1 和 LIP，COCO-stuff 图像分割测试上表现出了显着的优势。

Jun, 2020

一幅图像对于重建与生成而言价值 32 个令牌

这篇研究论文介绍了一种基于 Transformer 的一维令牌化方法（TiTok），其将图像令牌化为一维潜在序列，通过提供更紧凑的潜在表示形式，实现了比传统技术更高效和更有效的图像合成。

Jun, 2024

基于双鉴别器生成对抗网络的 JPEG 压缩域文档图像二值化

本文提出了一种直接使用 JPEG 压缩流进行文档图像二值化的方法，采用 Dual Discriminator 生成对抗网络，在包含噪声和失真的情况下，经过全面的测试，结果表明该模型具有高度的鲁棒性和效率，同时在 JPEG 压缩领域表现出最先进的性能。

Sep, 2022

基于小波的图像分词方法用于视觉变压器

基于小波变换的图像分词器提高了训练吞吐量并减少了 ImageNet 验证集的 top-1 误差率，同时为基于 ViT 模型设计提供了新的研究方向。

May, 2024