文档 AI:基准、模型和应用
本研究旨在对文档布局分析的最先进模型进行比较评估,并利用机器翻译技术探索跨语言文档布局分析的潜力。
Aug, 2023
文件理解和信息提取是自动理解文档并提取有价值信息的不同任务。该研究聚焦于发展领域包括商业、法律和医学在内的文档理解,以提高大量文档相关工作的效率。此外,该研究还推出了一个数据挑战,针对最近发布的文档级视觉问答(PDFVQA)数据集,旨在促进对自然语言全文档多个连续页面的结构和上下文理解的模型研究。该任务有助于将文档理解从单页水平提升到全文档水平。
Jul, 2023
文档图像分类是一项与纯文本文档分类不同的任务,它通过理解表单、电子邮件和其他文档的内容和结构来对文档进行分类。本研究介绍了两个新的多语言数据集 WIKI-DOC 和 MULTIEURLEX-DOC,克服了现有数据集的限制。此外,本研究对以前未经测试的文档图像分类任务中的流行视觉丰富的文档理解或文档智能模型进行了全面研究,包括多标签分类和零样本跨语言迁移设置。实验结果显示多语言文档智能模型在跨语言迁移上存在一定的局限性。我们的数据集和研究结果为未来改进文档智能模型打开了大门。
Oct, 2023
本文调查了文件自动化技术的现状,定义和描述了其特点,辨识了学术研究中的最新 DA 架构和技术,以及基于生成式 AI 和大型语言模型的最新进展,为 DA 领域的新研究机会提供了思路。
Aug, 2023
利用 arXiv 的元数据,通过学习这些数据中科学论文的主题标签,我们可以推断出其他大型语料库中与人工智能相关的论文,这种监督式方法可以一直更新,无需依赖于主题专家进行查询开发或标注。
Feb, 2020
长表是一种能够编码多达 4K 个标记的多模态文件 AI 模型,它在广泛的金融数据集上表现出超越现有公共模型的性能,同时在现有单页基准测试上保持可比较的结果。
Jan, 2024
本文研究信息提取的问题,探讨了文档信息提取问题、数据集、基准测试等方面,提出了机器学习中的关键信息定位、提取和条目识别问题,并批评了目前缺乏半结构化商务文档的相关数据集和基准测试。
Jun, 2022
研究评估了人工智能在简化政策分析中的潜力,并识别了当前人工智能方法的优点和限制。研究还通过使用《关于 “人工智能的安全、可靠和可信开发与应用”》这一行政令进行案例研究,对四个商业人工智能系统进行了性能比较。研究发现,Gemini 1.5 Pro 和 Claude 3 Opus 两个人工智能系统在支持政策分析方面表现出了显著的潜力,能够从复杂文件中提取准确可靠的信息,其效率与人类分析师相当,但明显更高。然而,实现可复现性仍然存在挑战,需要进一步的研究和开发。
Jun, 2024
本文综述了深度学习在编码智能方面的应用,包括代码表示学习、深度学习技术和应用任务,并提供了一个适用于基于深度学习的编码智能模型快速原型设计的开源工具包。同时,公开发布了源代码和数据资源,以促进现有和未来编码智能模型的评估和比较,并指出了几个具有挑战性和有前景的研究方向。
Dec, 2023
通过深入文献和在线资源的系统性研究,我们编制并发布了一个全面的与临床和生物医学自然语言处理(NLP)广泛领域相关的数据集和基准目录,对 450 个 NLP 数据集进行了手动系统化和注释处理,并与跨医疗应用的相关任务进行了比较,结果显示,当前可用的人工智能基准测试不同于希望在临床环境中进行人工智能自动化的任务,因此需要创建新的基准测试以填补这些差距。
Jan, 2022