DocAligner：通过拍照对现实世界的照片文档图像进行标注

Jun, 2023

DocAligner：通过拍照对现实世界的照片文档图像进行标注

DocAligner: Annotating Real-world Photographic Document Images by Simply Taking Pictures

Jiaxin Zhang, Bangdong Chen, Hiuyi Cheng, Lianwen Jin, Fengjun Guo...

TL;DRDocAligner 是一种有效的方法，可以通过密集的对应方法在摄影文件图像和原始干净文档图像之间建立对齐，可以实现在摄影图像上的自动标注并提高精度，这解决了该领域中标注数据不足的问题。

Abstract

Recently, there has been a growing interest in research concerning document image analysis and recognition in photographic scenarios. However, the lack of labeled datasets for this emerging challenge poses a significant obstacle, as manual →

document image analysis dataset alignment annotation recognition

发现论文，激发创造

DM-Align：利用自然语言指令的力量对图像进行更改

通过词语对齐，提供透明且可解释的方法，精确控制图像编辑，保留图像背景并适应长文本指令。

Apr, 2024

DocScanner: 具有渐进式学习的鲁棒性文档图像矫正

DocScanner 是一个新颖的文件图像矫正框架，它维护了单个矫正图像的估计，并通过一种递归机制进行了逐步纠正。基于几何先验，还引入了一种几何规则化来进一步提高纠正质量，并在 Doc3D 数据集和 DocUNet 基准数据集上进行了广泛实验，结果表明 DocScanner 在 OCR 准确性、图像相似度以及所提出的扭曲度量上优于先前方法，并表现出优越的运行时延和模型大小。

Oct, 2021

无标记学习稳健视频同步

本文介绍一种可扩展和强健的非线性时间视频对齐方法，该方法利用了视频本身的本质，能够在没有手动标签的情况下对月份间隔的数据进行视频对齐，并能用于计算机图形学和视觉领域的广泛应用。

Oct, 2016

端到端弱监督语义对齐

本文提出了一种基于卷积神经网络和不同 iable soft inlier scoring 模块的语义对齐方法，该方法无需繁琐的手工标注就能实现对不同但具有语义相关性的图像进行参数学习，并从几何上一致的对应关系计算对齐质量，达到了基于多个标准基准的语义对齐的最先进表现。

Dec, 2017

使用角度监督的内容感知矫正

该研究介绍了一种新的文档矫正方法 —— 内容感知矫正算法（Content Aware Rectification using Angle Supervision, CREASE），该算法通过利用文档内容、单词位置及其方向等信号来辅助矫正，采用一种新颖的基于像素角度回归的方法和曲率估计，优化了文档矫正模型。与之前的方法相比，它在 OCR 准确性、几何误差和视觉相似度方面有明显的优势。

Aug, 2020

深度视觉语义对齐生成图像描述

本文介绍了一个基于卷积神经网络、双向递归神经网络和多模态嵌入的模型，用于生成图像及其区域的自然语言描述，并展示了在多个数据集上，该模型的对齐模型均优于基准检索结果，生成的描述显著优于检索结果和基准。

Dec, 2014

SelfDocSeg：面向文档分割的自监督基于视觉的方法

使用自我监督技术，将文档图像中的伪造布局用于预先训练图像编码器，以在无监督的框架内学习文档对象的表示和定位，然后使用目标检测模型进行微调，该流水线在文档布局分析中表现卓越。

May, 2023

三维形态一致化：野外三维感知图像对齐

我们提出了 3D Congealing 方法，这是一个新颖的问题，即对于捕捉到语义相似物体的 2D 图像进行 3D 感知对齐。我们的目标是将输入图像中的共享语义部分与 2D 图像中的知识聚合到共享的 3D 规范空间中，通过一个不依赖于形状模板、姿态或任何相机参数的通用框架来完成此任务。该框架的核心是一个将几何和语义信息封装在内的规范 3D 表示。优化过程结合了每个输入图像的规范表示和姿态，以及将 2D 像素坐标映射到 3D 规范框架以解决形状匹配的位置坐标映射。优化过程融合了来自预训练图像生成模型的先验知识和来自输入图像的语义信息。前者在这个限制条件下为任务提供了强大的知识引导，而后者则提供了减轻预训练模型中训练数据偏差所需的信息。我们的框架可用于各种任务，如对应匹配、姿态估计和图像编辑，在具有挑战性的光照条件下以及在野外在线图像集合中取得了优异的结果。

Apr, 2024

无人机采集的可见光和红外图像对的深度图像对齐

本论文提出了一种基于深度学习的多模态图像对齐解决方案，通过使用卷积神经网络的特征嵌入模块，实现了无需使用基于 Lucas-Kanade (LK) 方法即可取得与最先进方法相媲美的结果。我们的方法在四个航拍数据集上进行了测试，与现有的最新深度 LK 架构相比，取得了最先进的结果。

Feb, 2024

GraphAlign: 多模态三维物体检测中通过图匹配提升准确的特征对齐

本文介绍了一种名为 GraphAlign 的更准确的 3D 物体检测特征对齐策略，采用图匹配的方式融合来自图像分割编码器的图像特征和来自 LiDAR 的点云特征，通过投影校准和自我注意机制实现异构模态间的特征对齐。我们在 nuScenes 基准上进行广泛实验，证明了 GraphAlign 的有效性和效率。

Oct, 2023