从晦涩难懂的手写文档图像中进行弱监督信息提取
本文研究信息提取方法,提出利用人工验证的弱监督标记方法,结合人工与计算机快速处理,以实现在精度要求高的情境下避免纯手工提取耗时过长的难题,并在犯罪司法数据集上实证其优越性。
Feb, 2023
本篇论文提出了一种基于 Transformer 的方法,用于从数字化手写文件中提取信息,将特征提取、手写识别和命名实体识别的步骤结合成了一个模型,并且在不同分辨率下比较了传统的两阶段方法,实验证明全页注意力模型能够从键值注释中进行学习,并且在多个数据集上胜过现有的方法。
Apr, 2023
通过医患对话数据集,使用基于 Transformer 的TAScore 注意力评分函数与 Fusedmax 投影方法相结合,提高了自动抽取对话中药品用法及频率等信息的模型的最大公共子串 F1 值。
Oct, 2020
通过引入与文本进行比较的任务,我们提出了一个无限制的二元分类器,其中包括一个手写识别特征提取器和一个多模态分类头,该分类头将特征提取器的输出与输入文本的向量表示进行卷积。我们的模型的分类头完全基于使用最先进的生成对抗网络创建的合成数据进行训练。我们证明,与直接使用最先进的手写识别模型来解决任务相比,尽管保持高回收率,但分类器可以进行校准,使平均精确度提高了 19.5%。这种巨大的性能提升可以在利用人 - 环自动化的应用中带来显著的生产力增长。
Sep, 2023
本文提出了一种基于卷积网络的学习型、无模板的解决方案,用于检测先前印制文本和输入文本 / 手写文本,以及预测它们之间的成对关系,适用于噪声、退化和形式多种多样的历史表格图像数据集。
Sep, 2019
提出使用选择性标注结合主动学习的方法,以简化对可预测提取的样本进行标注的成本,实验证明相比全额标注,该方法可将成本降低 10 倍同时精度不受影响,并且适用于不同领域的文档。
Oct, 2022
本文介绍了使用自然语言处理技术和基于深度学习的方法处理医学记录中的实际数据,通过利用医学注册处重点患者信息的导向监督,并结合领域特定的预训练、递归神经网络和分层注意的方法,实现了在医疗系统中具有可伸缩性的实证研究。
Mar, 2022
本文提出一种无分割 OCR 系统,该系统将深度学习方法、数据增强方法和合成训练数据结合起来,使用大型文本语料库和 2000 多种字体渲染合成训练数据,并通过几何失真和提出的 alpha-compositing 数据增强技术模拟复杂的自然环境,并采用 CNN 编码器以提取文本图像特征,检验了序列模型与卷积模型在模拟输入元素交互方面的能力。
Jun, 2019
文章提出了一种简单但有效的方法,通过弱监督机制在没有标注数据的情况下学习 NER 模型,该方法使用广泛的标注功能对目标域中的文本进行自动注释,然后通过隐马尔可夫模型将这些注释合并在一起,从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估(CoNLL 2003 和来自路透社和彭博社的新闻文章),相比于域外神经 NER 模型,在实体级别的 F1 得分上取得了约 7 个百分点的提升。
Apr, 2020