科学文献中的定理和证明的多模态机器学习
本研究探讨了巴西最高法院文件的多模式分类,采用 ResNet 与多核卷积神经网络提取视觉和文本特征以及 biLSTM 网络建模页面的序列性,发现多模式分类优于单一模式分类。
Jul, 2022
本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理,在 Con-Text 和 Drink Bottle 数据集中,在细粒度图像分类和图像检索任务中显著优于之前的最新技术。
Sep, 2020
本文介绍了一种多模态神经网络,结合了 OCR 提取的文本和图像信息,来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。
Jul, 2019
本文提出了基于多任务学习和预训练技术的框架,利用文本、版面和图像的多模态信息学习通用文档表示,以支持多种下游文档任务,并在标准文档数据集上进行了广泛实验。
Sep, 2020
该研究论文通过逻辑表征作为文本和图像的统一意义表征,并提出了一种无监督的多模态逻辑推断系统,可有效证明它们之间的推理关系,结合语义分析和定理证明,系统可以处理语义复杂的视觉 - 文本推断。
Jun, 2019
本论文提出了一种基于多模态 Transformer 的分层框架(LAMPreT),并通过分层预训练来训练模型,以实现对文档布局的理解及其内部内容的分类和组合,来更好地进行文本块填充和图像建议两项任务。
Apr, 2021
该研究提出了一种全卷积网络,通过多模态方法从文档图像中提取语义结构,并使用像素级分割方式考虑文档的语义结构提取。该方法不仅考虑文本的视觉外观,还考虑文本的内容,通过有效的合成文档生成数据进行预训练和半监督学习方法滴定优化网络架构,施加于真实文档上,此方法极大地提高了分割的性能表现。
Jun, 2017
该论文通过对现有公开的多模态模型进行综合研究,评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能,发现这些模型主要依赖于语义理解进行字识别,对单个字符形状的感知较差,同时对文本长度漠不关心,无法有效检测图像中的细粒度特征,在传统文本任务中尚无法与领域特定方法相媲美,面临更大的挑战。
May, 2023
本研究介绍了一个基于多模态特征和融合方法的计算模型,使用 XLNet 取得最高的加权 f1 分数 0.58,并在对多模态社交媒体 meme Troll 的分类任务中获得第三名。
Feb, 2021
多模态预测模型 MultiSChuBERT 通过使用基于 BERT 分块编码的文本模型(SChuBERT)和基于 Inception V3 的视觉模型,结合文本和可视信息,显著提高学术文档质量预测任务的结果。
Aug, 2023