- KVP10k: 商业文件中键值对提取的全面数据集
最近几年来,从商业文件中提取信息的挑战已成为一项关键任务,在许多领域找到了应用。本文引起了工业界和学术界的广泛兴趣,突显了其在当前技术环境中的重要性。与大多数现有数据集和基准不同,我们的重点是在没有预先定义的键的情况下发现键值对,通过导航复 - 手写文件的端到端信息提取:理解 1880 年至 1940 年的巴黎结婚记录
EXO-POPP 项目旨在建立一个包含法国巴黎及其郊区 1880 年至 1940 年之间的 30 万份婚姻记录的综合数据库,其中包括超过 13 万多个扫描的双页图像。该论文介绍了 M-POPP 数据集,这是 M-POPP 数据库的一个子集, - 手写文件中信息提取的读取顺序无关度量
手写文件中的信息提取过程往往依赖于获得自动转录并对该转录执行命名实体识别(NER);出于这个原因,在公开可用的数据集中,系统的性能通常使用适用于每个数据集的特定指标进行评估。而且,大多数使用的指标对阅读顺序错误非常敏感,因此不能反映系统的预 - 文本 - 元组 - 表:通过全局元组提取实现文本到表生成中的信息整合
本论文介绍了 LiveSum,这是一个用于根据实时评论文本生成比赛摘要表格的新基准数据集。该论文评估了最先进的大型语言模型在这项任务中的性能,并提出了一种名为 $T^3$(文本 - 元组 - 表格)的新型流水线来改善性能。实验证明,即使在微 - 细粒度的冠状病毒新闻命名实体
本研究提出了一个数据标注流程,从包括普通和领域特定实体的冠状病毒新闻文章中生成训练数据,并在领域专家手动标注的测试句子上评估训练模型的性能。
- 检索增强的基于生成的关系抽取
信息抽取是将非结构化文本数据转化为结构化格式的一种变革性过程,本研究提出了一种提高关系抽取任务性能的基于检索增强生成的关系抽取方法,并通过使用不同的大型语言模型对其进行了有效性评估。结果显示,该方法在信息抽取任务中表现出卓越的性能,特别是在 - GraphER: 一种结构感知的文本到图模型,用于实体和关系抽取
该研究论文提出了一种新颖的方法,将信息提取任务转化为图结构学习,通过动态细化和优化图结构来增强模型在实体和关系预测方面的能力,相比于以前的模型,该方法允许更好的交互和结构驱动决策,同时在联合实体和关系提取基准测试上与最先进的基准模型相比获得 - 评估信息提取的质量
大规模语言模型的进展显著提高了从非结构化和半结构化数据源中提取信息的效率。本文引入了一个自动框架,用于评估信息提取的质量和完整性,重点关注实体及其属性的信息提取。讨论了如何处理大规模语言模型的输入 / 输出大小限制,并分析了在迭代提取信息时 - BuDDIE:一个用于多任务信息提取的商业文档数据集
通过介绍 BuDDIE(商业文档信息抽取数据集),本文提供了一个包含丰富且稠密注释的多任务数据集,其中包含 1,665 个现实世界商业文档。该数据集涵盖了文档分类、关键实体提取和视觉问答等多个任务,并提供了每个任务的基线结果。
- COLING评价信息抽取中的生成式语言模型作为主观问题纠正
利用主观问句纠错法评估了现代大型语言模型在信息提取任务中的性能,提出了 SQS-Score 评价方法,衡量输出结果与真实标签之间的语义一致性,并通过结合自然语言推理模型,丰富了评价标签,解决了评价标准中的缺陷,发现 SQS-Score 相较 - 类增量少样本事件检测
提出了一种新颖的知识蒸馏和提示学习方法(Prompt-KD),用于解决类增量少样本事件检测任务中的旧知识遗忘和新类过拟合问题。在两个基准数据集(FewEvent 和 MAVEN)上的实验表明 Prompt-KD 具备卓越的性能。
- OpenChemIE:化学文献信息提取工具包
OpenChemIE 是一种用于从化学文献中提取信息的开源工具,通过结合文本、表格和图像等多个模态来提取反应数据,并使用专门的神经模型和化学知识算法来实现高效的信息提取和集成。
- 从 LLM 中提炼元模型用于各类信息提取任务
我们提出了一个称为 MetaIE 的新框架,通过学习提取 “重要信息” 来构建一个小型元模型,使得这个元模型可以有效和高效地适应各种信息提取任务,在少样本适应设置下获得更好的性能。
- RealKIE: 为企业关键信息提取设计的五个新数据集
RealKIE 是一个具有五个具有挑战性数据集的基准测试,旨在推进关键信息提取方法,重点关注企业应用。这些数据集包括一系列不同类型的文档,包括 SEC S1 文件,美国保密协议,英国慈善报告,FCC 发票和资源合同。除了介绍这些数据集外,我 - 信息提取是否存在一种适用于所有模型的方法?重新审视任务定义偏见
信息提取中的定义偏见是一种负面现象,可能会误导模型。为了系统地调查和解决信息提取中的定义偏见,我们提出了一个多阶段框架,包括定义偏见测量、偏见感知微调和任务特定的偏见缓解。实验证明了我们框架在解决定义偏见方面的有效性。
- AutoRE:基于大型语言模型的文档级关系抽取
通过引入 AutoRE 模型和 RHF (Relation-Head-Facts) 的新型 RE 提取范式,结合 QLoRA (Parameters Efficient Fine Tuning) 算法构建了一个易于扩展的 DocRE 框架, - 使用大型语言模型自动提取雇佣仲裁判决中的信息
这篇论文通过对英国雇佣法庭(UKET)案件中使用 GPT-4 进行自动信息提取的综合研究,展示了语言模型在法律信息提取方面的高精度和潜力,并对工具开发提供了指导。
- 基于跨度的信息抽取 -- 关于信息抽取的统一视角
信息抽取是自然语言处理(NLP)中的一系列任务,用于识别文本中的子序列及其标签,并链接自由文本和结构化数据。本文提出了一种以文本片段为中心的统一视角,将多样的信息抽取任务重新定位为同一基本的以文本片段为导向的信息抽取任务。
- 使用探测分类器的嵌入式命名实体识别
直接将信息提取功能嵌入预训练的语言模型中,使用探测分类器进行语义信息的提取,提高了文本生成和信息提取的效率,同时无需微调语言模型,内存所需较少且生成速率较高。
- 信息提取:在发展中国家超本地金融数据领域的应用
本研究使用自然语言处理技术,旨在解决获取发展中国家公司财务数据的问题。通过构建专门针对发展中国家金融文本数据的数据集,我们采用基于 Transformer 的 T5 模型进行文本到文本的处理,同时进行命名实体识别和关系提取,达到 92.44