构建下一代文档阅读器

AAAIFeb, 2023

Envisioning the Next-Gen Document Reader

Catherine Yeh, Nedim Lipka, Franck Dernoncourt

TL;DR通过添加基于 NLP 技术的 18 个功能和提出一个新的插件市场来增强用户的理解能力和改善电子阅读体验，并提供 3 个用户界面的探索性原型，这是下一代文档阅读器的愿景。

Abstract

People read digital documents on a daily basis to share, exchange, and understand information in electronic settings. However, current document readers create a static, isolated reading experience, which does not support users' goals of gaining more knowledge and performing additional tasks through document interaction. In this work, we present our vision fo

document reader nlp-powered features plug-in marketplace customization ui prototypes

发现论文，激发创造

语义阅读器项目: AI 动力交互式阅读界面增强学术文献

本研究提出通过 AI 和 HCI 技术实现更智能、互动和无障碍的阅读界面，同时介绍 Semantic Reader 项目，它通过自动创建动态阅读界面，提高了学者的阅读体验。

Mar, 2023

深度阅读器：通过关系抽取和自然语言从文档图像中提取信息

这篇论文介绍了一种名为 DeepReader 的新型企业级综合框架，其通过识别文档图像中的视觉实体并在不同实体之间填充元关系模型来促进文档图像中的信息提取，包括从表格、图表、脚注、文本框和标题等视觉实体中提取相关信息。

Dec, 2018

TRIE：端到端文本阅读和信息提取以实现文档理解

本文提出了一种统一的端到端文本阅读和信息提取网络，通过融合文本阅读的多模态视觉和文本特征来实现信息提取，并且信息提取中的语义有助于优化文本阅读，该方法在真实世界的数据集上表现出比现有方法更高的效率和准确性。

May, 2020

用于阅读辅助的文本自动分割成有意义的单元

本文介绍数字图书为阅读提供便利，特别是对于对于阅读有困难的人，EPub 3 的辅助功能格式（如 FROG）以及采用人工智能中的 Transfer Learning 技术和 Google BERT 等技术，能够自动划分意义单元，从而降低数字图书的制作成本和提升辅助功能。

Oct, 2019

文档智能理解研讨会

文件理解和信息提取是自动理解文档并提取有价值信息的不同任务。该研究聚焦于发展领域包括商业、法律和医学在内的文档理解，以提高大量文档相关工作的效率。此外，该研究还推出了一个数据挑战，针对最近发布的文档级视觉问答（PDFVQA）数据集，旨在促进对自然语言全文档多个连续页面的结构和上下文理解的模型研究。该任务有助于将文档理解从单页水平提升到全文档水平。

Jul, 2023

DocParser: 基于端到端的无 OCR 信息提取技术，用于含丰富视觉元素的文档

本文提出了基于 DocParser 的 OCR-free 端到端信息提取模型，不同于以往的方法，其能更好地提取具有区别性的字符特征，并在各种数据集上实现了最先进的结果，同时速度比以前的工作还要快。

Apr, 2023

诺加：学术文档的神经光学理解

我们提出了一种名为 Nougat 的神经光学理解学术文档的模型，它使用光学字符识别（OCR）将科学文档转换为标记语言。该方法有效地提高了数字时代科学知识的可访问性，将人类可读文档和机器可读文本之间的鸿沟缩小。我们发布了相关模型和代码以促进科学文本识别的未来工作。

Aug, 2023

VisualWordGrid: 多模态途径提取扫描文档信息

介绍了一种用于扫描文档表示的新方法，它可以同时编码文本、视觉和布局信息，以 3 轴张量形式用作分割模型的输入，并在考虑到视觉形式的基础上，提高了对小数据集的鲁棒性同时保持推理时间的速度，经过公共和私人文档图像数据集的测试，与最近的最先进方法相比，表现出更高的性能。

Oct, 2020

V-Doc：带有文档的视觉问答系统

V-Doc 是一种使用文档图像和 PDF 文件的问答工具，主要用于帮助研究人员和普通非深度学习专家生成、处理和理解文档的视觉问答任务，支持使用文档图像生成和使用抽取式和生成式问答对，可用于各种数据集和模型，并且通过声明性、框架不可知平台高度可扩展。

May, 2022

统一视觉、文本和版式，实现通用文档处理

该研究提出了通用文档处理（UDOP）方法，使用 Vision-Text-Layout Transformer 对文本、图像和布局进行建模，实现了高质量的神经文档编辑和内容定制，是首个在文档 AI 领域一次性完成高质量文档编辑和内容定制的模型，并在金融报告、学术论文和网站等数据领域中实现了 8 种文档 AI 任务的最新成果。

Dec, 2022