LMDX:基于语言模型的文件信息提取与定位
研究论文通过设计 DocLLM 模型,结合文本语义和空间布局,以有效地理解企业文件的丰富语义,摆脱昂贵的图像编码器,侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件,通过预训练和微调,优于当前最优模型在多个任务中的性能,并且对于先前未见过的数据集具有较好的泛化能力。
Dec, 2023
我们提出了一种新的 3D-LLMs,将 3D 世界引入大型语言模型,并利用 3D point clouds 进行各种 3D 相关任务,通过我们设计的提示机制收集了超过 300k 的 3D 语言数据,实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法,并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。
Jul, 2023
本文提出了 LayoutLLM,一种更灵活的文档分析方法,用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势,通过与多模态指令数据集进行微调,提出的模型在单个模型中执行对文档图像的理解,并通过实验证明在各种文档分析任务中改进了基线模型。
Mar, 2024
本文介绍 Evaporate 和 Evaporate-code+ 系统,用大的语言模型库开发这些系统可以在保证较低成本的同时提高提取数据质量,并且在处理了一系列文档的情况下达到了比现有技术更好的性能.
Apr, 2023
该研究构建了基于文档的对话系统,旨在从视觉丰富的文档(VRD)中提取结构和语义知识,以生成准确的回复,为此创建了一个布局感知的文档级信息提取数据集 LIE,并开发了基准方法考虑人类的布局特征,实验结果表明布局对基于 VRD 的提取至关重要,系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释,成为我们所知最大的基于 VRD 的信息提取数据集。
Jul, 2022
本研究提出了一种从文本医学报告中提取结构化表格数据的新方法 TEMED-LLM,结合具有解释性的机器学习模型,以在医学诊断中实现端到端可解释性的预测, 较传统的文本分类模型在医学诊断方面具有更好的性能表现。
Jun, 2023
LLMDB 是一种通过应用机器学习和大型语言模型优化数据管理问题的范例,具有高泛化能力和推理能力,可避免幻觉问题,并通过引入特定领域的知识、矢量数据库和 LLM 代理来提高准确性,其中三个真实场景包括查询重写、数据库诊断和数据分析。
Feb, 2024
本研究聚焦于利用大型语言模型(LLMs)进行自动事件提取,介绍了一种新方法以解决幻觉问题,通过将任务分解为事件检测和事件参数提取,并将动态结构感知的增强检索示例集成到为每个具体查询定制的提示中,从而扩展和适应检索增强生成等先进提示技术。评估结果表明,与基线方法相比,该方法在突出的事件提取基准和合成基准测试中表现出卓越的性能。
Jun, 2024
大规模语言模型在信息提取任务中存在问题,通过两阶段多步骤方法和强化学习框架提高其表现,将顺序提取视为马尔可夫决策过程,训练决策模型以提供最佳的实体提取顺序,有效改善大规模语言模型的信息提取能力。
Jun, 2024