手写文件中信息提取的读取顺序无关度量

Apr, 2024

手写文件中信息提取的读取顺序无关度量

Reading Order Independent Metrics for Information Extraction in Handwritten Documents

David Villanova-Aparisi, Solène Tarride, Carlos-D. Martínez-Hinarejos, Verónica Romero, Christopher Kermorvant...

TL;DR手写文件中的信息提取过程往往依赖于获得自动转录并对该转录执行命名实体识别（NER）；出于这个原因，在公开可用的数据集中，系统的性能通常使用适用于每个数据集的特定指标进行评估。而且，大多数使用的指标对阅读顺序错误非常敏感，因此不能反映系统的预期最终应用，并且在更复杂的文件中引入了偏见。在本文中，我们提出并公开发布了一套针对手写文件中信息提取评估的与阅读顺序无关的度量标准。在实验中，我们对度量标准的行为进行了深入分析，并推荐了我们认为的正确评估任务所需的最小度量标准。

Abstract

information extraction processes in handwritten documents tend to rely on obtaining an automatic transcription and performing named entity recogn

information extraction handwritten documents named entity recognition metrics reading order

发现论文，激发创造

从完整手写页中提取键值信息

本篇论文提出了一种基于 Transformer 的方法，用于从数字化手写文件中提取信息，将特征提取、手写识别和命名实体识别的步骤结合成了一个模型，并且在不同分辨率下比较了传统的两阶段方法，实验证明全页注意力模型能够从键值注释中进行学习，并且在多个数据集上胜过现有的方法。

Apr, 2023

评估信息提取的质量

大规模语言模型的进展显著提高了从非结构化和半结构化数据源中提取信息的效率。本文引入了一个自动框架，用于评估信息提取的质量和完整性，重点关注实体及其属性的信息提取。讨论了如何处理大规模语言模型的输入 / 输出大小限制，并分析了在迭代提取信息时它们的性能。最后，介绍了用于评估提取质量的度量标准，并对如何解释这些度量标准进行了广泛讨论。

Apr, 2024

TRIE：端到端文本阅读和信息提取以实现文档理解

本文提出了一种统一的端到端文本阅读和信息提取网络，通过融合文本阅读的多模态视觉和文本特征来实现信息提取，并且信息提取中的语义有助于优化文本阅读，该方法在真实世界的数据集上表现出比现有方法更高的效率和准确性。

May, 2020

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

阅读顺序的重要性：通过标记路径预测从视觉丰富的文档中提取信息

通过预训练的多模态模型和令牌路径预测，解决了扫描文档中实体命名识别的困难并提供了有效的信息提取解决方案。

Oct, 2023

视觉丰富文档评估的文档智能度量

介绍了一款名为 DI-Metrics 的 Python 库，其中包括了基于文本、几何和层次结构指标的用于评估 Visually-Rich Documents 信息提取模型表现的指标，并使用 CORD 数据集比较了三种 SOTA 模型和一种工业模型的性能。该开源库已在 GitHub 上发布。

May, 2022

朝向可解释和高效的基于参考文献的自动文摘评估

本研究旨在开发两种不同的自动评估测量标准来评价文本摘要的质量，其中包括两种可以在单元级别和总结级别上提供高可解释性的两阶段测量标准和一种在效率和互操作性之间取得平衡的一阶段测量标准。同时，我们开发的工具已经通过 Python 软件包和 GitHub 免费提供给公众。

Mar, 2023

手写文档的非破坏性检验创新方法

通过图像处理和深度学习技术，本文提出了一个能够提取和分析手稿文档与文本行高度、单词间距和字符大小相关的内在度量的框架。通过量化待比较文档的特征向量之间的欧几里德距离，可以辨别出作者身份。我们还提出了一个新的、具有挑战性的数据集，包括 124 个不同人物撰写的 362 个手写和数字设备上的手稿。实验结果表明，我们的方法能够在不同的写作媒介中客观地确定作者身份，并超越现有技术水平。

Oct, 2023

自然语言处理中的分类评估指标问题讨论

在自然语言处理（NLP）分类任务中，衡量模型泛化能力的常规度量指标（如准确率、F - 度量或 AUC-ROC）的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标，并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验，在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名，得出归一化信息性度量最能捕捉到理想模型特征。最后，我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。

Jan, 2024

领域和通用文件中的信息提取：启发式和数据驱动方法的研究结果

本项研究探讨了信息抽取中文档体类别和长度对常用方法的影响，特别是对具有文本挖掘任务价值的命名实体识别和语义角色标注有着重要的启示。

Jun, 2023