- 在检索增强生成框架中使用经过微调的大型语言模型进行关系抽取
Fine-tuned large language models integrated into the Retrieval-Augmented-based approach demonstrate exceptional performa - 滞后的跳跃:探索大型语言模型在多次跳跃查询上的限制
大型语言模型在解决复杂的多步问题方面能力强大,本研究通过分析 Transformer-based LLMs 内部计算过程,发现其在处理多跳查询和信息抽取时采用了潜在的计算步骤,进而提出了一种新颖的 “回补” 分析方法,帮助解决模型在后期计算 - 自适应强化学习规划:利用大规模语言模型进行复杂信息提取
大规模语言模型在信息提取任务中存在问题,通过两阶段多步骤方法和强化学习框架提高其表现,将顺序提取视为马尔可夫决策过程,训练决策模型以提供最佳的实体提取顺序,有效改善大规模语言模型的信息提取能力。
- GLiNER 多任务:通用轻量级模型用于各种信息提取任务
介绍一种新型 GLiNER 模型,用于各种信息提取任务,同时作为一个小型编码器模型。该模型在零样本 NER 基准测试上达到了最佳性能,并在问答、摘要和关系抽取任务上具有领先的性能。此外,本文还涵盖了使用 GLiNER 模型进行命名实体识别的 - 甲状腺手术叙述自动化信息提取:GPT-4 与 Fine-tuned KoELECTRA 的比较研究
该研究旨在比较经过调整的 KoELECTRA 模型与 GPT-4 模型的转化能力,以促进对甲状腺手术叙述的自动信息提取,通过利用先进的自然语言处理技术推动医疗领域的数据处理系统的范式转变,揭示了更流畅、精确和高效的文档处理方法,潜在地改变了 - SciRIFF:提升科学文献中模型指令遵循能力的资源
SciRIFF 是一份包含 137K 个 54 项任务的指示跟随演示的科学资源,涵盖了信息提取、摘要、问题回答、声明验证和分类等五个必要的科学文献理解能力,其长输入上下文、详细任务规范和复杂的结构化输出使其成为瞩目的资源。通过在一般领域和 - 朝可靠性 Ad-hoc 科学信息提取迈进:基于两组材料数据的案例研究
探索 GPT-4 在从科学文献中进行特定模式的信息提取方面的能力,评估其是否能够通过基本的提示方法复制两个已存在的材料科学数据集,从最初手动提取的文稿中提取所需信息,并利用材料科学家的见解进行详细的手动错误分析,以确定模型在提取所需信息时的 - CORU: 全面的后光学字符识别解析与收据理解数据集
这篇论文介绍了一种新颖的数据集 CORU,旨在增强 OCR 和信息提取技术在多语言环境中处理阿拉伯语和英语收据的能力,并评估传统方法和基于神经网络的方法在 CORU 上的性能。
- 评估中文开源大型语言模型在信息抽取任务中的性能
本文针对零样本情况下中文开源大型语言模型在信息抽取任务中的性能进行了综合调查和分析,同时通过少样本实验评估了这些模型的能力,并与 ChatGPT 等广泛认可的语言模型在信息抽取性能上进行了比较分析,旨在提供对现有中文开源大型语言模型在自然语 - SpikeMM:高速微运动的弹性放大
SpikeMM 是一种基于 spike 的算法,专门为高速运动放大而设计,通过多级信息提取、空间上采样和运动放大模块的集成,实现了自我监督方法适用于各种场景,并与高性能超分辨率和运动放大算法无缝结合,经验证在实际高频设置中放大运动的能力。
- ACL在基于问答的事件提取中迈向更好的问题生成
通过利用强化学习方法,我们提出了四个评估问题质量的标准,并在基于问题回答的事件提取中生成了流畅、具有概括性和上下文相关性的问题,从而为 QA 模型提供了明确的指导。在 ACE 和 RAMS 数据集上进行的广泛实验证实了我们方法的有效性,同时 - KnowledgeHub:辅助科学发现的端到端工具
该研究描述了 KnowledgeHub 工具,一种科学文献信息提取和问题回答的流程,通过支持将 PDF 文档转换为文本和结构化表示,以构建本体论,并使用基于浏览器的注释工具对 PDF 文档的内容进行注释,然后通过训练命名实体识别和关系分类模 - PyTorch-IE:信息提取的快速可重现原型设计
信息抽取(IE)旨在从非结构化或半结构化文档中导出结构化表示。本研究提出了 PyTorch-IE,一种基于深度学习的框架,旨在实现 IE 模型的快速、可重复和可重用的实现。PyTorch-IE 提供了灵活的数据模型,能够通过集成来自各种数据 - 实体和关系的联合提取的解耦和聚集框架
我们提出了一种新模型,旨在联合提取实体和关系,通过解耦特征编码过程并使用细粒度的子任务特定特征以及采用新的信息交互策略来增强模型性能,并在实验中展现了优于现有模型的结果。
- ADELIE:信息抽取中的大型语言模型对齐
使用 ADELIE 模型与高质量对齐数据集 IEInstruct 进行指令调整和直接优化,实现了信息抽取任务的最新性能,并探索了 ADELIE 的通用能力。
- AttacKG+: 使用大型语言模型增强攻击知识图谱构建
攻击知识图谱构建:使用大型语言模型和 LLM 框架完全自动化构建攻击知识图谱,包括重写、解析、识别和总结模块,提供关于攻击事件分析所需的信息,并有效地提取 AttacKG + 所定义的信息,从而在攻击重建等下游安全实践中直接受益。
- 基于大型多模态模型的病理报告标准化与置信度及其预后意义
使用大型多模型自动从病理报告图片中提取信息,并生成标准化报告,其中包括不同字段的数值及其准确性的置信度。提取的字段值在病理报告中具有重要的预后价值,可用于患者分层。
- 利用大型语言模型自动从科学文献中提取化学食品安全隐患
该研究通过使用大型语言模型,在科学文献中自动提取化学危害物,以实现食品安全领域的信息提取。最佳提示方法将任务分解为较小的步骤,平均准确率达到 93%,证实了大型语言模型在从科学文献中提取相关危害物方面的价值。
- KVP10k: 商业文件中键值对提取的全面数据集
最近几年来,从商业文件中提取信息的挑战已成为一项关键任务,在许多领域找到了应用。本文引起了工业界和学术界的广泛兴趣,突显了其在当前技术环境中的重要性。与大多数现有数据集和基准不同,我们的重点是在没有预先定义的键的情况下发现键值对,通过导航复 - 手写文件的端到端信息提取:理解 1880 年至 1940 年的巴黎结婚记录
EXO-POPP 项目旨在建立一个包含法国巴黎及其郊区 1880 年至 1940 年之间的 30 万份婚姻记录的综合数据库,其中包括超过 13 万多个扫描的双页图像。该论文介绍了 M-POPP 数据集,这是 M-POPP 数据库的一个子集,