深度视觉无模板形状解析
该研究提出了一个新的框架,使用未标记的数据来进行表单字段提取。通过挖掘未标记表单中的噪声伪标签来启动训练过程,并提取转换器模型中的区分性记号表示,以建模表单中的文本交互,并引入基于逐步伪标签集合的细化模块,以防止模型过拟合标签噪声。实验结果表明了该框架的有效性。
Oct, 2021
本文提出一种无分割 OCR 系统,该系统将深度学习方法、数据增强方法和合成训练数据结合起来,使用大型文本语料库和 2000 多种字体渲染合成训练数据,并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境,并采用 CNN 编码器以提取文本图像特征,检验了序列模型与卷积模型在模拟输入元素交互方面的能力。
Jun, 2019
使用图像 - 文本配对样本进行预训练并改进度量学习损失函数来提高开放式标志识别的匹配模型的性能。将相同的图像 - 文本预训练模型微调到公共标志数据集上,显著提高了性能,并且在五个公共标志数据集上取得了新的最新成果。
Sep, 2023
通过深度神经网络,结合多级注意力 U-Net 结构和部分强度场、部分关联场的联合性实现形式理解中的实体检测和链接预测,有效地提升了文档形式理解任务的表现,尤其是在 FUNSD 数据集上的表现优于原始模型和现有基准。
Jun, 2021
本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法,采用图像特征生成文本特征,实现了对文本数据的无缝融合。实验结果表明,该方法在标准文本到图像生成任务中取得了最好的表现,并且优于大多数使用完整图像 - 文本对进行训练的现有模型。此外,我们的方法可以应用于微调预训练模型,从而节省文本到图像生成模型的培训时间和成本。
Nov, 2021
该研究提出了一种名为 LAGNN 的语言无关图神经网络模型,用于将表格解析成单词 - 关系图,以联合识别实体和关系,并通过相对间距来利用布局信息进行易于语言转移。
May, 2023
本文提出了一种高效的 few-shot 学习框架,通过在公开数据集 DIVA-HisDB 上的试验,表明该框架的性能可与当前最先进的完全监督方法媲美,有效地解决了在古代手写文献分析中像素精确的文本标注是一项耗时的过程,而这种信息在现实世界中很少可用的问题。
Oct, 2022
本文介绍了一种创新的、完整的端到端流程,采用深度学习和用户交互技术,对印刷和草书英文手写手稿进行注释,该方法使用了最先进的文本识别模型构建的检测系统和自定义的深度学习模型,结合易于使用的交互式界面,旨在提高检测、分割、序列化和识别阶段的准确性,以确保高质量的注释数据,最大程度地减少人类交互。
Apr, 2023