知识增强的多模态学习调查

Nov, 2022

A survey on knowledge-enhanced multimodal learning

Maria Lymperaiou, Giorgos Stamou

TL;DR该研究调查了多模态学习中的视觉语言学习及其与知识图谱的结合，提出了一种基于知识图谱的视觉语言学习模型以解决一般性知识方面的问题。

Abstract

multimodal learning has been a field of increasing interest, aiming to combine various modalities in a single joint representation. Especially in the area of visiolinguistic (VL) learning multiple models and techniques have been developed, targeting a variety of tasks that involve imag

multimodal learning visiolinguistic learning transformers pre-training knowledge graphs

发现论文，激发创造

视觉语言学习中知识的贡献：任务和挑战调查

研究了基于视觉和语言协同的任务，考虑利用知识图谱和大型语言模型等外部知识来源填补现有 VL 预训练数据集中存在的知识缺失问题，提出了基于混合架构的解决方案，并总结了知识图谱与大型语言模型潜在对未来混合模型的影响。

Mar, 2023

多模态表示学习：演进、预训练及其应用的综述

本综述论文全面介绍了深度学习多模态体系结构的演变和增强，以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务：包括最新的任务特定的深度学习方法，多模态预训练目标，以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。

Feb, 2023

利用知识注入学习提高多模态营销中的上下文一致性

通过将常识知识图与大型视觉语言模型结合，改进了多模态营销活动的效果预测，并实现了对可能具有说服力的多模态活动的早期检测以及对营销理论的评估和增强。

Feb, 2024

Veagle: 多模态表征学习的进展

提出了一种名为 Veagle 的新方法，通过在现有模型中增强多模态能力，利用动态机制将编码的视觉信息直接投射到语言模型中，从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。

Jan, 2024

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019

知识图谱应用于多模态学习：综述

本综述对 300 篇以上的文章进行了仔细审查，重点关注了两个主要方面的知识图谱 (KG) 相关研究，即 KG 驱动的多模式学习和多模式知识图谱 (MMKG)，通过定义 KG 和 MMKG，探讨了它们的构建进展，以及 KG 驱动的多模式学习任务和 MMKG 任务，为相关研究提供了定义、评估基准和关键见解，最后讨论了当前的挑战和新兴趋势，如大型语言模型和多模式预训练策略的进展。本综述旨在作为 KG 和多模式学习研究领域的全面参考，为已经参与或考虑进行 KG 和多模式学习研究的研究人员提供洞察力，支持未来的工作。

Feb, 2024

利用视觉知识在语言任务中：跨模态知识转移的中间预训练的实证研究

本研究探索了将视觉知识整合到语言模型中以填补现有文本信息中缺失的相关性和物体属性信息的空白。研究发现，视觉知识传递可以在低资源和完全监督设置下均有效提高预先训练的语言模型在需要视觉知识的下游任务中的性能。

Mar, 2022

多模态图学习的生成任务

多模态图学习 (MMGL) 是一个通用、系统化的框架，用于捕捉具有关系结构的多模态邻居的信息并且在预训练的语言模型中增强其文本生成能力。

Oct, 2023