文本和图像预训练在多模态算法推理中的整合
本文介绍了我们在 SMART-101 挑战中解决多模态算法推理任务的解决方案。我们使用分而治之的方法,在数据层面上将所有问题分为八类,并利用 llama-2-chat 模型以零射方式直接生成每个问题的类别。此外,我们在 icon45 数据集上训练了一个 yolov7 模型用于目标检测,并将其与 OCR 方法结合起来识别和定位图像中的对象和文本。在模型层面上,我们使用 BLIP-2 模型并为图像编码器 VIT-G 添加了八个适配器,以自适应地提取不同问题类型的视觉特征。我们将预先构建的问题模板作为输入,使用 flan-t5-xxl 解码器生成答案。在拼图分割配置下,我们在验证集上获得了 26.5 的准确率得分,并在私有测试集上获得了 24.30 的准确率得分。
Oct, 2023
在本论文中,介绍了 HYU MLLAB KT 团队解决 SMART-101 CVPR 2024 Challenge:多模态算法推理任务。为了解决这个问题,我们提出了两个主要思路:利用大规模语言模型 (LLM) 的推理能力,将给定的视觉线索 (图像) 落实到文本模态中,并生成描述图像上下文的详细文本描述,然后将这些描述作为 LLM 的输入;为了确保不会忽视包含各种几何视觉模式的拼图图像的特性,我们利用目标检测算法来捕捉这些几何模式的视觉特征,并将这些信息作为 LLM 的输入。在拼图分割配置下,在测试集上实现了 29.5 的选项选择准确率 (Oacc),在挑战集上实现了 27.1 的加权选项选择准确率 (WOSA)。
Jun, 2024
本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT,用于图像 - 文本联合嵌入,该模型基于 Transformer,可以将不同的模态作为输入,并建模它们之间的关系。通过多阶段的预训练策略,可以提高预训练质量,最终在图像检索和文本检索任务上获得了新的最先进结果。
Jan, 2020
本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型,采用自我注意力机制进行不同模态的融合,并通过动态指针网络进行迭代式答案解码,相比于现有方法大幅度提高了 TextVQA 任务的性能。
Nov, 2019
本文介绍了我们在 Dialog State Tracking Challenge 10 上进行的 Situated Interactive MultiModal Conversations 2.0 挑战中的工作和方法,提出了一种结合图像和文本的多模态模型,并对 SIMMC 2.0 数据集进行了挑战。通过预先训练模型,我们在 subtask#1,#2 中取得了第三佳表现,并在生成 subtask#4 中获得亚军。
Dec, 2021
本综述论文全面介绍了深度学习多模态体系结构的演变和增强,以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务:包括最新的任务特定的深度学习方法,多模态预训练目标,以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。
Feb, 2023
对于像素级语言模型,本论文介绍了一种新颖的预训练框架,通过在超过 4 亿个文档渲染的 RGB 图像上预训练,采用双模态训练方案,结合视觉数据和文本数据,通过下一个块预测和分类头预测进行训练,并展示了将视觉和文本数据结合的潜力及有效性。
Apr, 2024
利用创新的跨模态关注机制和分层特征融合策略,将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合,以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明,与现有的图像和文本匹配模型相比,优化后的新模型在一系列基准数据集上表现出显著的性能提升,并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。
Jun, 2024
本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理,在 Con-Text 和 Drink Bottle 数据集中,在细粒度图像分类和图像检索任务中显著优于之前的最新技术。
Sep, 2020
本文提出了基于多任务学习和预训练技术的框架,利用文本、版面和图像的多模态信息学习通用文档表示,以支持多种下游文档任务,并在标准文档数据集上进行了广泛实验。
Sep, 2020