深度视觉无模板形状解析

Sep, 2019

Deep Visual Template-Free Form Parsing

Brian Davis, Bryan Morse, Scott Cohen, Brian Price, Chris Tensmeyer

TL;DR本文提出了一种基于卷积网络的学习型、无模板的解决方案，用于检测先前印制文本和输入文本 / 手写文本，以及预测它们之间的成对关系，适用于噪声、退化和形式多种多样的历史表格图像数据集。

Abstract

Automatic, template-free extraction of information from form images is challenging due to the variety of form layouts. This is even more challenging for historical forms due to noise and degradation. A crucial part of the extraction process is associating →

form images pre-printed text input text pair-wise relationships historical form images

发现论文，激发创造

从未标注的数据中提取表单字段

该研究提出了一个新的框架，使用未标记的数据来进行表单字段提取。通过挖掘未标记表单中的噪声伪标签来启动训练过程，并提取转换器模型中的区分性记号表示，以建模表单中的文本交互，并引入基于逐步伪标签集合的细化模块，以防止模型过拟合标签噪声。实验结果表明了该框架的有效性。

Oct, 2021

基于数据效率的形式文档信息提取

本文介绍了如何使用少量标记数据和被标记语料库进行转移学习，以实现在规模上自动从表单状文件提取信息。

Jan, 2022

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

商标识别的图像 - 文本预训练

使用图像 - 文本配对样本进行预训练并改进度量学习损失函数来提高开放式标志识别的匹配模型的性能。将相同的图像 - 文本预训练模型微调到公共标志数据集上，显著提高了性能，并且在五个公共标志数据集上取得了新的最新成果。

Sep, 2023

通用表格理解的端到端分层关系抽取

通过深度神经网络，结合多级注意力 U-Net 结构和部分强度场、部分关联场的联合性实现形式理解中的实体检测和链接预测，有效地提升了文档形式理解任务的表现，尤其是在 FUNSD 数据集上的表现优于原始模型和现有基准。

Jun, 2021

LAFITE：面向文本图像生成的语言无关训练

本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法，采用图像特征生成文本特征，实现了对文本数据的无缝融合。实验结果表明，该方法在标准文本到图像生成任务中取得了最好的表现，并且优于大多数使用完整图像 - 文本对进行训练的现有模型。此外，我们的方法可以应用于微调预训练模型，从而节省文本到图像生成模型的培训时间和成本。

Nov, 2021

语言无关的神经符号语义分析在形式理解中的应用

该研究提出了一种名为 LAGNN 的语言无关图神经网络模型，用于将表格解析成单词 - 关系图，以联合识别实体和关系，并通过相对间距来利用布局信息进行易于语言转移。

May, 2023

像素精准手写文档布局分析的高效少样本学习

本文提出了一种高效的 few-shot 学习框架，通过在公开数据集 DIVA-HisDB 上的试验，表明该框架的性能可与当前最先进的完全监督方法媲美，有效地解决了在古代手写文献分析中像素精确的文本标注是一项耗时的过程，而这种信息在现实世界中很少可用的问题。

Oct, 2022

针对英文手写体草书和印刷体的端到端交互式深度学习标注系统

本文介绍了一种创新的、完整的端到端流程，采用深度学习和用户交互技术，对印刷和草书英文手写手稿进行注释，该方法使用了最先进的文本识别模型构建的检测系统和自定义的深度学习模型，结合易于使用的交互式界面，旨在提高检测、分割、序列化和识别阶段的准确性，以确保高质量的注释数据，最大程度地减少人类交互。

Apr, 2023

手写文档图像匹配

该研究使用卷积神经网络提取特征描述进行文本匹配，以解决不同个体写作的手写文本相似性预测问题。

May, 2016