科学文献中的定理和证明的多模态机器学习

Jul, 2023

科学文献中的定理和证明的多模态机器学习

Multimodal Machine Learning for Extraction of Theorems and Proofs in the Scientific Literature

Shrey Mishra, Antoine Gauquier, Pierre Senellart

TL;DR使用多模态分类方法从数学文章中提取定理环境和证明，包括文本、字体信息和位图渲染等多个模态，并采用序列信息进行特征融合和模型训练。实验证明多模态方法比单一模态更有效，并且采用基于条件随机场的块序列建模可以显著提高性能。

Abstract

Scholarly articles in mathematical fields feature mathematical statements such as theorems, propositions, etc., as well as their proofs. Extracting them from the PDF representation of the articles requires understanding of scientific text along with visual and font-based indicators. We pose this problem as a →

mathematical articles multimodal classification language model font-based information bitmap renderings

发现论文，激发创造

巴西法律文件的序列感知多模态页面分类

本研究探讨了巴西最高法院文件的多模式分类，采用 ResNet 与多核卷积神经网络提取视觉和文本特征以及 biLSTM 网络建模页面的序列性，发现多模式分类优于单一模式分类。

Jul, 2022

基于场景文本的细粒度图像分类与检索的多模态推理图

本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理，在 Con-Text 和 Drink Bottle 数据集中，在细粒度图像分类和图像检索任务中显著优于之前的最新技术。

Sep, 2020

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019

基于多模态多任务学习的文档表示学习预训练框架

本文提出了基于多任务学习和预训练技术的框架，利用文本、版面和图像的多模态信息学习通用文档表示，以支持多种下游文档任务，并在标准文档数据集上进行了广泛实验。

Sep, 2020

视觉 - 文本蕴涵的多模态逻辑推理系统

该研究论文通过逻辑表征作为文本和图像的统一意义表征，并提出了一种无监督的多模态逻辑推断系统，可有效证明它们之间的推理关系，结合语义分析和定理证明，系统可以处理语义复杂的视觉 - 文本推断。

Jun, 2019

LAMPRET：面向布局的多模态文档预训练理解

本论文提出了一种基于多模态 Transformer 的分层框架（LAMPreT），并通过分层预训练来训练模型，以实现对文档布局的理解及其内部内容的分类和组合，来更好地进行文本块填充和图像建议两项任务。

Apr, 2021

使用多模态全卷积神经网络学习从文档中提取语义结构

该研究提出了一种全卷积网络，通过多模态方法从文档图像中提取语义结构，并使用像素级分割方式考虑文档的语义结构提取。该方法不仅考虑文本的视觉外观，还考虑文本的内容，通过有效的合成文档生成数据进行预训练和半监督学习方法滴定优化网络架构，施加于真实文档上，此方法极大地提高了分割的性能表现。

Jun, 2017

关于大型多模型模型中 OCR 的隐秘之谜

该论文通过对现有公开的多模态模型进行综合研究，评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能，发现这些模型主要依赖于语义理解进行字识别，对单个字符形状的感知较差，同时对文本长度漠不关心，无法有效检测图像中的细粒度特征，在传统文本任务中尚无法与领域特定方法相媲美，面临更大的挑战。

May, 2023

研究视觉和文本特征以识别多模态社交媒体模因中的喷子

本研究介绍了一个基于多模态特征和融合方法的计算模型，使用 XLNet 取得最高的加权 f1 分数 0.58，并在对多模态社交媒体 meme Troll 的分类任务中获得第三名。

Feb, 2021

MultiSChuBERT：学术文档品质预测的有效多模态融合

多模态预测模型 MultiSChuBERT 通过使用基于 BERT 分块编码的文本模型（SChuBERT）和基于 Inception V3 的视觉模型，结合文本和可视信息，显著提高学术文档质量预测任务的结果。

Aug, 2023