ICDAR 2021 科学文献解析竞赛

Jun, 2021

ICDAR 2021 Competition on Scientific Literature Parsing

Antonio Jimeno Yepes, Xu Zhong, Douglas Burdick

TL;DR本文介绍了科技文献对自然语言处理的挑战和 ICDAR 2021 科技文献解析竞赛的使用，并展示了该竞赛在文档布局识别和表格识别方面的高性能成果。

Abstract

scientific literature contain important information related to cutting-edge innovations in diverse domains. Advances in natural language processing have been driving the fast development in automated information

scientific literature natural language processing pdf processing document understanding icdar2021-slp

发现论文，激发创造

2023 年 ICDAR 企业文档鲁棒版面分割竞赛

该报告介绍了我们在 ICDAR 2023 Robust Layout Segmentation in Corporate Documents 比赛中的结果，使用文档布局理解的视觉模型，数据增强，集合方法，以及显而易见的趋势：采用视觉转换器方法，取得了显着的进展，以达到鲁棒性和高度泛化的文档布局理解。

May, 2023

平安 - VC 集团针对 ICDAR 2021 科技文献解析任务 B 的解决方案：将表格识别为 HTML

本文介绍了我们参加 ICDAR 2021 科学文献解析任务 B 的解决方案，其中我们将表格内容识别任务分解为四个子任务：表格结构识别，文本行检测，文本行识别和框分配。我们的方法在开发阶段的 9,115 个样本上实现了 96.84％的 TEDS 分数，在最终评估阶段的 9,064 个样本中实现了 96.32％的 TEDS 分数，表明我们的方法在表格识别方面达到了很好的效果。

May, 2021

ICDAR 2015 野外文本阅读竞赛

该技术报告介绍了 ICDAR 2015 年 TRW2015 竞赛的最终结果，该竞赛旨在为设计用于中英文脚本的检测和识别算法提供基准，并为社区的研究人员提供一个游戏场。本文详细描述了数据集，任务，评估协议和参与者，报告了参与方法的性能，并讨论了未来研究的有前途的方向。

Jun, 2015

ICDAR 2023 结构化文本提取竞赛之视觉丰富文档图像

ICDAR 2023 competition on Structured text extraction from Visually-Rich Document images (SVRD) organized with two tracks for evaluating end-to-end Complex Entity Linking and Labeling and Zero-shot / Few-shot Structured Text extraction respectively, with more than 50 types of visually-rich document images from enterprise applications, attracting 35 and 15 participants respectively and revealing a large gap in expected information extraction performance for complex and zero-shot scenarios.

Jun, 2023

2023 年 ICDAR 分层文本检测与识别竞赛

我们组织了一个层级文本检测和识别的比赛，以促进对深度学习模型和系统的研究，这些模型和系统可以共同执行文本检测、识别和几何布局分析。比赛期间至少有 20 个团队提交了 50 份申请，本报告中还将介绍比赛结果和洞见。

May, 2023

ICDAR 2023 读取印章比赛

本文介绍了 ICDAR 2023 印章标题文本识别（ReST）比赛，并概述了比赛的组织、挑战和结果，报道了来自学术界和工业界的 53 位参与者，包括 28 个 Task 1 的提交和 25 个 Task 2 的提交，结果表明印章标题文本识别领域已取得了重要进展，激励了进一步的研究和发展。

Apr, 2023

自动检测临床文件的布局以提高下游自然语言处理的性能

通过设计新算法提高 PDF 文档的临床内容分析性能，包括文本分类和信息抽取等多个步骤，并在使用医学样例数据进行检验后，成功在临床使用案例中提高了医学概念的信息抽取效率。

May, 2023

PubLayNet：有史以来最大的文档布局分析数据集

本文提出了 PubLayNet 数据集用于文档布局分析，并证明基于该数据集的深度神经网络模型可以准确地识别科学文章的布局。

Aug, 2019

语义阅读器项目: AI 动力交互式阅读界面增强学术文献

本研究提出通过 AI 和 HCI 技术实现更智能、互动和无障碍的阅读界面，同时介绍 Semantic Reader 项目，它通过自动创建动态阅读界面，提高了学者的阅读体验。

Mar, 2023

ICDAR 2021 文档视觉问答竞赛

通过 ICDAR 2021 版本的文件视觉问题挑战结果，我们介绍了一种新的基于超过 5000 张信息图像和 30,000 个问答组的 Infographics VQA 数据集的任务，并展示了赢家方法在 3 个不同 VQA 任务上的性能。同时还介绍了任务中使用的数据集以及每个提交方法的描述和性能结果。

Nov, 2021