图像 - 文本多模型综述 | BriefGPT

Sep, 2023

图像 - 文本多模型综述

A Survey on Image-text Multimodal Models

Ruifeng Guo, Jingxuan Wei, Linzhuang Sun, Bihui Yu, Guiyong Chang...

TL;DR在人工智能领域的演变环境中，图像与文本信息的融合已成为一个关键的领域，引发了图像 - 文本多模态模型的出现。本文全面回顾了图像 - 文本多模态模型的发展和现状，探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段，提出了三个不同阶段的分类，根据其引入时间和对学科的影响。此外，根据任务在学术领域的重要性和普及性，对图像 - 文本多模态模型相关任务进行了五个主要类型的分类，阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就，但仍存在许多挑战和问题。本文深入探讨了图像 - 文本多模态模型固有的挑战和限制，促进了未来研究方向的探索。我们的目标是提供对图像 - 文本多模态模型研究现状的全面概述，并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作，推进图像 - 文本多模态模型社区的发展。

Abstract

Amidst the evolving landscape of artificial intelligence, the convergence of visual and textual information has surfaced as a crucial frontier, leading to the advent of image-text multimodal models. This paper pr

artificial intelligence image-text multimodal models evolution challenges research trajectories

发现论文，激发创造

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

多模态机器翻译调查：任务、方法与挑战

多模态机器翻译是近年来引起学术界和工业界广泛关注的研究领域，本文通过综述先前的 99 项研究工作，全面总结了主要模型、数据集和评估指标，分析了各种因素对模型性能的影响，并讨论了未来该领域的研究方向。与之前限制在早期多模态机器翻译的调查不同，我们的调查从不同角度深入总结了这些新兴类型，以便为研究人员提供对目前研究状况的更好理解。

May, 2024

多模态大型语言模型综述

本文探究了多模态语言模型的研究，集成了多种数据类型，如图像、文本、语言、音频和其他异构数据。通过合并各种模态，多模态模型能够更全面地理解和处理多样化的数据，本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。

Nov, 2023

图像 - 文本匹配的先进多模态深度学习架构

利用创新的跨模态关注机制和分层特征融合策略，将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合，以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明，与现有的图像和文本匹配模型相比，优化后的新模型在一系列基准数据集上表现出显著的性能提升，并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。

Jun, 2024

理解、分类和预测语义图像 - 文本关系

本文借鉴视觉传达研究，探究了多模式信息检索的有用语义图像 - 文本关系，在自动收集和扩充数据资源的基础上，采用深度学习系统和三种度量标准（跨模态互信息、语义相关性和图像与文本的状态关系）对八种语义图像 - 文本类别进行了预测，并在一个严格的测试集上展示了该方法的可行性。

Jun, 2019

神经多模态主题建模：全面评估

本文提出了首次系统全面评估多模式主题建模的方法，并提出了两个新的主题建模解决方案和两个新的评估指标。通过对数据集的评估，我们发现我们的模型都能生成连贯且多样化的主题。然而，一个方法优于另一个方法的程度取决于评估指标和数据集的组合，这表明未来需要进一步探索混合解决方案。值得注意的是，我们简明的人工评估与我们提出的评估指标结果一致，这不仅强化了评估指标的可信度，也突出了其在引导未来多模式主题建模研究中的潜力。

Mar, 2024

视觉 + 语言应用：一项综述

本文探讨了跨越文本、视觉、音频等多模态应用领域内相关研究，包括文本生成图像、视觉语言交互等方面，同时提供最新的研究论文、数据集、应用项目及相关信息。

May, 2023

文本到图像跨模态生成：系统综述

通过 “跨模态生成” 这一视角回顾了关于从文本生成视觉数据的研究，对各种针对输入文本并产生视觉输出的方法进行了比较和对比，并提出了在领域中的常见模板，逐一探讨了图片 - 文本方法、视频 - 文本方法、图片编辑、自监督和基于图形的方法。对 2016 年至 2022 年在 8 个机器学习领域的顶级学术会议上发表的研究论文进行了总结，也纳入了一些与所述搜索标准不匹配的相关论文，发现该领域的发表论文数量显著增加，并凸显了研究空白和潜在的研究方向。据我们所知，这是首个系统地从 “跨模态生成” 的视角来审视文本到图像生成的综述。

Jan, 2024

文本的双模态：视觉和文本生成预训练

对于像素级语言模型，本论文介绍了一种新颖的预训练框架，通过在超过 4 亿个文档渲染的 RGB 图像上预训练，采用双模态训练方案，结合视觉数据和文本数据，通过下一个块预测和分类头预测进行训练，并展示了将视觉和文本数据结合的潜力及有效性。

Apr, 2024

大型语言模型与以文本为中心的多模态情感分析：调查

与传统情感分析相比，多模态情感分析需要同时考虑来自多模态源的情感信号，它更符合人类在现实场景中处理情感的方式。本文综述了近期文本为中心的多模态情感分析任务中的研究，审视了大型语言模型在文本为中心的多模态情感分析中的潜力、方法、优势和局限性，总结了基于大型语言模型的多模态情感分析技术的应用场景，并探讨了未来多模态情感分析的挑战和潜在研究方向。

Jun, 2024