Sep, 2023

图像 - 文本多模型综述

TL;DR在人工智能领域的演变环境中,图像与文本信息的融合已成为一个关键的领域,引发了图像 - 文本多模态模型的出现。本文全面回顾了图像 - 文本多模态模型的发展和现状,探讨了其应用价值、挑战和潜在研究方向。通过细分演化阶段,提出了三个不同阶段的分类,根据其引入时间和对学科的影响。此外,根据任务在学术领域的重要性和普及性,对图像 - 文本多模态模型相关任务进行了五个主要类型的分类,阐明了每个类别内的最新进展和关键技术。尽管这些模型取得了显著成就,但仍存在许多挑战和问题。本文深入探讨了图像 - 文本多模态模型固有的挑战和限制,促进了未来研究方向的探索。我们的目标是提供对图像 - 文本多模态模型研究现状的全面概述,并为未来学术工作提供有价值的参考。我们邀请广大学术社区共同合作,推进图像 - 文本多模态模型社区的发展。