DocAligner:通过拍照对现实世界的照片文档图像进行标注
DocScanner 是一个新颖的文件图像矫正框架,它维护了单个矫正图像的估计,并通过一种递归机制进行了逐步纠正。基于几何先验,还引入了一种几何规则化来进一步提高纠正质量,并在 Doc3D 数据集和 DocUNet 基准数据集上进行了广泛实验,结果表明 DocScanner 在 OCR 准确性、图像相似度以及所提出的扭曲度量上优于先前方法,并表现出优越的运行时延和模型大小。
Oct, 2021
本文介绍一种可扩展和强健的非线性时间视频对齐方法,该方法利用了视频本身的本质,能够在没有手动标签的情况下对月份间隔的数据进行视频对齐,并能用于计算机图形学和视觉领域的广泛应用。
Oct, 2016
本文提出了一种基于卷积神经网络和不同 iable soft inlier scoring 模块的语义对齐方法,该方法无需繁琐的手工标注就能实现对不同但具有语义相关性的图像进行参数学习,并从几何上一致的对应关系计算对齐质量,达到了基于多个标准基准的语义对齐的最先进表现。
Dec, 2017
该研究介绍了一种新的文档矫正方法 —— 内容感知矫正算法(Content Aware Rectification using Angle Supervision, CREASE),该算法通过利用文档内容、单词位置及其方向等信号来辅助矫正,采用一种新颖的基于像素角度回归的方法和曲率估计,优化了文档矫正模型。与之前的方法相比,它在 OCR 准确性、几何误差和视觉相似度方面有明显的优势。
Aug, 2020
本文介绍了一个基于卷积神经网络、双向递归神经网络和多模态嵌入的模型,用于生成图像及其区域的自然语言描述,并展示了在多个数据集上,该模型的对齐模型均优于基准检索结果,生成的描述显著优于检索结果和基准。
Dec, 2014
使用自我监督技术,将文档图像中的伪造布局用于预先训练图像编码器,以在无监督的框架内学习文档对象的表示和定位,然后使用目标检测模型进行微调,该流水线在文档布局分析中表现卓越。
May, 2023
我们提出了 3D Congealing 方法,这是一个新颖的问题,即对于捕捉到语义相似物体的 2D 图像进行 3D 感知对齐。我们的目标是将输入图像中的共享语义部分与 2D 图像中的知识聚合到共享的 3D 规范空间中,通过一个不依赖于形状模板、姿态或任何相机参数的通用框架来完成此任务。该框架的核心是一个将几何和语义信息封装在内的规范 3D 表示。优化过程结合了每个输入图像的规范表示和姿态,以及将 2D 像素坐标映射到 3D 规范框架以解决形状匹配的位置坐标映射。优化过程融合了来自预训练图像生成模型的先验知识和来自输入图像的语义信息。前者在这个限制条件下为任务提供了强大的知识引导,而后者则提供了减轻预训练模型中训练数据偏差所需的信息。我们的框架可用于各种任务,如对应匹配、姿态估计和图像编辑,在具有挑战性的光照条件下以及在野外在线图像集合中取得了优异的结果。
Apr, 2024
本论文提出了一种基于深度学习的多模态图像对齐解决方案,通过使用卷积神经网络的特征嵌入模块,实现了无需使用基于 Lucas-Kanade (LK) 方法即可取得与最先进方法相媲美的结果。我们的方法在四个航拍数据集上进行了测试,与现有的最新深度 LK 架构相比,取得了最先进的结果。
Feb, 2024
本文介绍了一种名为 GraphAlign 的更准确的 3D 物体检测特征对齐策略,采用图匹配的方式融合来自图像分割编码器的图像特征和来自 LiDAR 的点云特征,通过投影校准和自我注意机制实现异构模态间的特征对齐。我们在 nuScenes 基准上进行广泛实验,证明了 GraphAlign 的有效性和效率。
Oct, 2023