从晦涩难懂的手写文档图像中进行弱监督信息提取

Jun, 2023

从晦涩难懂的手写文档图像中进行弱监督信息提取

Weakly supervised information extraction from inscrutable handwritten document images

Sujoy Paul, Gagan Madan, Akankshya Mishra, Narayan Hegde, Pradeep Kumar...

TL;DR本文讨论了采用弱标签数据从手写处方单中提取药名的问题，并提出一种新的方法，并证明该方法比现有的最先进技术方法表现更好。

Abstract

State-of-the-art information extraction methods are limited by ocr errors. They work well for printed text in form-like documents, but unstructured, →

information extraction ocr errors handwritten documents medicine names weakly labeled data

发现论文，激发创造

基于数据效率的形式文档信息提取

本文介绍了如何使用少量标记数据和被标记语料库进行转移学习，以实现在规模上自动从表单状文件提取信息。

Jan, 2022

针对文本文档的高精度信息提取的人机协作优化

本文研究信息提取方法，提出利用人工验证的弱监督标记方法，结合人工与计算机快速处理，以实现在精度要求高的情境下避免纯手工提取耗时过长的难题，并在犯罪司法数据集上实证其优越性。

Feb, 2023

从完整手写页中提取键值信息

本篇论文提出了一种基于 Transformer 的方法，用于从数字化手写文件中提取信息，将特征提取、手写识别和命名实体识别的步骤结合成了一个模型，并且在不同分辨率下比较了传统的两阶段方法，实验证明全页注意力模型能够从键值注释中进行学习，并且在多个数据集上胜过现有的方法。

Apr, 2023

医疗对话中弱监督的药物方案提取

通过医患对话数据集，使用基于 Transformer 的TAScore 注意力评分函数与 Fusedmax 投影方法相结合，提高了自动抽取对话中药品用法及频率等信息的模型的最大公共子串 F1 值。

Oct, 2020

卷积识别模型特征与文本标签相结合的离线检测错误拼写的手写词

通过引入与文本进行比较的任务，我们提出了一个无限制的二元分类器，其中包括一个手写识别特征提取器和一个多模态分类头，该分类头将特征提取器的输出与输入文本的向量表示进行卷积。我们的模型的分类头完全基于使用最先进的生成对抗网络创建的合成数据进行训练。我们证明，与直接使用最先进的手写识别模型来解决任务相比，尽管保持高回收率，但分类器可以进行校准，使平均精确度提高了 19.5%。这种巨大的性能提升可以在利用人 - 环自动化的应用中带来显著的生产力增长。

Sep, 2023

深度视觉无模板形状解析

本文提出了一种基于卷积网络的学习型、无模板的解决方案，用于检测先前印制文本和输入文本 / 手写文本，以及预测它们之间的成对关系，适用于噪声、退化和形式多种多样的历史表格图像数据集。

Sep, 2019

基于视觉丰富的文档提取模型数据标注成本的显著降低

提出使用选择性标注结合主动学习的方法，以简化对可预测提取的样本进行标注的成本，实验证明相比全额标注，该方法可将成本降低 10 倍同时精度不受影响，并且适用于不同领域的文档。

Oct, 2022

大规模结构化现实世界数据的研究：利用患者级监督的深度学习从临床文本中提取关键肿瘤信息

本文介绍了使用自然语言处理技术和基于深度学习的方法处理医学记录中的实际数据，通过利用医学注册处重点患者信息的导向监督，并结合领域特定的预训练、递归神经网络和分层注意的方法，实现了在医疗系统中具有可伸缩性的实证研究。

Mar, 2022

深度学习技术实现高效无词典 OCR

本文提出一种无分割 OCR 系统，该系统将深度学习方法、数据增强方法和合成训练数据结合起来，使用大型文本语料库和 2000 多种字体渲染合成训练数据，并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境，并采用 CNN 编码器以提取文本图像特征，检验了序列模型与卷积模型在模拟输入元素交互方面的能力。

Jun, 2019

无标记数据下的命名实体识别：一种弱监督方法

文章提出了一种简单但有效的方法，通过弱监督机制在没有标注数据的情况下学习 NER 模型，该方法使用广泛的标注功能对目标域中的文本进行自动注释，然后通过隐马尔可夫模型将这些注释合并在一起，从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估（CoNLL 2003 和来自路透社和彭博社的新闻文章），相比于域外神经 NER 模型，在实体级别的 F1 得分上取得了约 7 个百分点的提升。

Apr, 2020