使用多模态 Transformers 的科学图表中的文本角色分类

Feb, 2024

使用多模态 Transformers 的科学图表中的文本角色分类

Text Role Classification in Scientific Charts Using Multimodal Transformers

Hye Jin Kim, Nicolas Lell, Ansgar Scherp

TL;DR文本角色分类涉及对科学图表中的文本元素进行语义角色分类。我们提出在图表数据集上对两个预训练的多模态文档布局分析模型 LayoutLMv3 和 UDOP 进行微调，并利用文本、图像和布局这三种模态作为输入。我们进一步研究了数据增强和平衡方法是否对模型的性能有帮助。模型在各种图表数据集上进行评估，结果表明 LayoutLMv3 在所有实验中表现优于 UDOP。LayoutLMv3 在 ICPR22 测试数据集上获得了 82.87 的最高 F1 宏分数，在 ICPR22 CHART-Infographics 挑战中超过了最佳模型。此外，模型的鲁棒性在合成噪声数据集 ICPR22-N 上进行了测试。最后，我们评估了模型在三个带有文本角色标签的图表数据集 CHIME-R、DeGruyter 和 EconBiz 上的泛化能力。研究结果表明，即使在训练数据有限的情况下，通过数据增强和平衡方法可以使用 transformers。源代码和数据集可在 GitHub 上的此网址找到。

Abstract

text role classification involves classifying the semantic role of textual elements within scientific charts. For this task, we propose to finetune two pretrained multimodal document layout analysis models,

text role classification multimodal document layout analysis layoutlmv3 udop transformers

发现论文，激发创造

LAPDoc：文档的布局感知提示

最近，在大规模使用纯文本数据训练大型语言模型（LLMs）的研究进展中，出现了强大的在许多领域和任务中的泛化能力，包括特定于文档的任务。与此相反，有一种趋势是训练多模态转换器架构，专门为文档理解而设计，旨在将文本输入与相应的文档布局融合在一起。本文研究了使用纯文本 LLMs 进行特定于文档任务的可能性，通过使用布局增强的方式。我们探索了插入修改和基于规则的方法，以将纯文本 LLM 提示与布局信息进行增强。我们的实验研究了商用 ChatGPT 模型和开源 LLM Solar 的效果。我们证明了使用我们的方法，两个 LLMs 在各种标准文档基准测试中均展现出改进的性能。此外，我们研究了有噪音的 OCR 和布局错误的影响，以及 LLMs 在利用文档布局方面的局限性。我们的结果表明，通过布局增强，相较于仅使用纯文本文档，纯文本 LLMs 在文档理解方面的性能可以提高多达 15%。总之，在纯文本 LLM 或多模态文档转换器之间进行最佳模型选择时，应考虑这种方法。

Feb, 2024

图表转文本：基于 Transformer 模型的自然语言描述生成

本论文提出了一种基于神经网络的模型来自动生成数据可视化的自然语言摘要，使得即使视力受损的用户也能够获取数据可视化的重要见解。

Oct, 2020

LayoutLMv2: 多模态预训练用于视觉丰富的文档理解

LayoutLMv2 提出了一种新的预训练架构，通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制，在预训练阶段更好地捕获跨模态交互，实现在 FUNSD，CORD，SROIE，Kleister-NDA，RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。

Dec, 2020

通过布局结构建模增强视觉丰富文档的理解

我们提出了 GraphLayoutLM 模型，它利用布局结构图的建模将文档布局知识注入模型，使得模型能够理解文本元素的空间排列，以提高文档的理解能力，并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。

Aug, 2023

LAMPRET：面向布局的多模态文档预训练理解

本论文提出了一种基于多模态 Transformer 的分层框架（LAMPreT），并通过分层预训练来训练模型，以实现对文档布局的理解及其内部内容的分类和组合，来更好地进行文本块填充和图像建议两项任务。

Apr, 2021

用于图像和文本分类的监督多模式双向转换器

该研究介绍了一种监督式多模态双向 Transformer 模型，该模型融合了文本编码器和图像编码器的信息，并在各种多模态分类基准任务上获得了最先进的性能。

Sep, 2019

科学文献中的定理和证明的多模态机器学习

使用多模态分类方法从数学文章中提取定理环境和证明，包括文本、字体信息和位图渲染等多个模态，并采用序列信息进行特征融合和模型训练。实验证明多模态方法比单一模态更有效，并且采用基于条件随机场的块序列建模可以显著提高性能。

Jul, 2023

UPB 在 IberLEF-2023 AuTexTification 中的使用：使用 Transformer 集成检测机器生成的文本

该研究论文描述了 UPB 团队在 IberLEF-2023 的 AuTexTification 共享任务中提交的解决方案，主要使用基于 Transformer 的深度学习模型以及多任务学习等训练技术，最佳模型在英语和西班牙语数据集上分别达到了 66.63% 和 67.10% 的宏 F1 分数。

Aug, 2023

Uni-SMART: 通用科学多模态分析与研究变换器

Uni-SMART 是一种创新模型，旨在深入理解多模式科学文献，通过量化评估在多个领域展示了超越文本焦点的大型语言模型的卓越性能，同时探索了专利侵权检测和图表的细致分析等实际应用，凸显了 Uni-SMART 的适应性和革新性。

Mar, 2024

一种基于 Transformer 的表征学习模型，用于临床诊断的多模态输入统一处理

我们提出了一个基于 Transformer 的诊断辅助模型，可以以统一的方式处理多模态输入，该模型在辨别肺部疾病方面表现出了比仅使用图像模型和非统一多模态诊断模型更高的识别率，并在 COVID-19 患者的不良临床预后方面表现出了更高的预测能力。

Jun, 2023