SIMARA：从完整网页中提取键值信息的数据库

Apr, 2023

SIMARA：从完整网页中提取键值信息的数据库

SIMARA: a database for key-value information extraction from full pages

Solène Tarride, Mélodie Boillet, Jean-François Moufflet, Christopher Kermorvant

TL;DR提出一个包含 5,393 份手写历史文档的信息提取新数据库，其中手写的 finding aid 包含了从 18-20 世纪的六个系列的元数据，每个文档都被页级注释，涵盖了七个检索字段。此数据集是分割自由系统信息提取研究的好机会。提出了基于 Transformer 架构的模型，用于端到端信息提取，并提供三个数据集以进行未来研究的公平比较。

Abstract

We propose a new database for information extraction from historical handwritten documents. The corpus includes 5,393 finding aids from six different series, dating from the 18th-20th centuries. →

information extraction historical handwritten documents finding aids dataset transformer architecture

发现论文，激发创造

从完整手写页中提取键值信息

本篇论文提出了一种基于 Transformer 的方法，用于从数字化手写文件中提取信息，将特征提取、手写识别和命名实体识别的步骤结合成了一个模型，并且在不同分辨率下比较了传统的两阶段方法，实验证明全页注意力模型能够从键值注释中进行学习，并且在多个数据集上胜过现有的方法。

Apr, 2023

Muharaf：手写阿拉伯文连续文本识别的手稿数据集

我们提供了一个由历史手写页面图像组成的机器学习数据集，每个文档图像配有文字行的空间多边形坐标以及基本页面元素，可用于提升手写文本识别的技术水平。该数据集包含不同的手写风格和各种文档类型，并介绍了数据获取过程、数据集特征和统计信息，同时提供了使用此数据进行训练的卷积神经网络的初步基线结果。

Jun, 2024

越南法律文本的多阶段信息检索

本研究使用句子转换器提出了一种新的越南法律文件信息检索方法，并通过多次实验比较不同的转换器模型、排名得分、音节层和单词层的训练，实验结果表明所提出的模型的表现优于当前越南文件信息检索的模型。

Sep, 2022

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022

高度异质性文档集的探索性分析

使用智能标记、基于机器学习和自然语言处理的 unsupervised 和 supervised 的标记策略，以及强大的 faceted 浏览框架，为高度异构文档集合提供了一种有效的多方面系统，其中重要的标记策略之一是 KERA 算法，如果让用户进行 buried 在海量不同信息中的军事关键技术文档定位，证明我们的系统是有效的。

Aug, 2013

InPars: 使用大型语言模型的信息检索数据增强

利用大型预训练语言模型作为综合数据生成器，对于信息检索任务的未监督数据的微调，可以使检索器在零样本学习和有监督学习的任务中获得更好的表现

Feb, 2022

手写文件的端到端信息提取：理解 1880 年至 1940 年的巴黎结婚记录

EXO-POPP 项目旨在建立一个包含法国巴黎及其郊区 1880 年至 1940 年之间的 30 万份婚姻记录的综合数据库，其中包括超过 13 万多个扫描的双页图像。该论文介绍了 M-POPP 数据集，这是 M-POPP 数据库的一个子集，用于手写和印刷文件的全页文本识别和信息提取，并已公开提供。通过从页面图像直接进行手写文本识别和信息提取，我们提出了一种完整的端到端架构，该架构是从 DAN 进行了适应。我们通过在 Esposalles 上实现全页信息提取的最新技术水平来展示该架构的信息提取能力，并将该架构作为 M-POPP 数据集的基准。我们还评估并比较了不同的命名实体编码策略对识别手写文本和提取信息的全页性能的影响。

Apr, 2024

SAMER 阿拉伯文本简化语料库

我们提出了 SAMER 语料库，这是第一个针对学龄儿童的阿拉伯语句子简化的手工注释的平行语料库。该语料库包括了 15 部公开可获取的阿拉伯小说，总共约 159K 个单词。我们在文档和单词级别对语料库进行了可读性标注，并提供了针对不同可读性水平的两个简化版本的平行文本。我们描述了语料库的选择过程，并概述了我们创建注释和确保其质量所遵循的指导方针。我们的语料库可以公开获取，以支持和鼓励阿拉伯语句子简化、阿拉伯语自动可读性评估以及阿拉伯语教育语言技术的研究发展。

Apr, 2024

HARE: 一种用于排名和探索的灵活突出显示注释工具

本研究探讨了自然语言处理技术在新型信息领域应用中的数据来源和分析问题，提出了一种名为 HARE 的系统，支持文档集合中相关信息的筛选与排序，并提供了后期处理和质量分析工具，以用于模型开发和调试，在移动信息的临床数据中应用 HARE 系统，比较了几种候选嵌入特征，提供了基于 Web 的界面和可视化工具，支持与现有注释工具的互操作。

Aug, 2019

MS2: 医学研究的多文档摘要

本研究针对医学干预方案的评估，提供了一个达到自动评估医学文献、整合多个研究结果的新数据集：MS^2。并基于 BART 模型，通过自由文本和结构化形式，提出了用于评估自动生成摘要质量的新指标。

Apr, 2021