知识增强的多模态学习调查
研究了基于视觉和语言协同的任务,考虑利用知识图谱和大型语言模型等外部知识来源填补现有 VL 预训练数据集中存在的知识缺失问题,提出了基于混合架构的解决方案,并总结了知识图谱与大型语言模型潜在对未来混合模型的影响。
Mar, 2023
本综述论文全面介绍了深度学习多模态体系结构的演变和增强,以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务:包括最新的任务特定的深度学习方法,多模态预训练目标,以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。
Feb, 2023
通过将常识知识图与大型视觉语言模型结合,改进了多模态营销活动的效果预测,并实现了对可能具有说服力的多模态活动的早期检测以及对营销理论的评估和增强。
Feb, 2024
提出了一种名为 Veagle 的新方法,通过在现有模型中增强多模态能力,利用动态机制将编码的视觉信息直接投射到语言模型中,从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。
Jan, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示,结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型,因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。
Sep, 2021
本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合,涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面,旨在为相关社群未来的研究提供参考。
Nov, 2019
本综述对 300 篇以上的文章进行了仔细审查,重点关注了两个主要方面的知识图谱 (KG) 相关研究,即 KG 驱动的多模式学习和多模式知识图谱 (MMKG),通过定义 KG 和 MMKG,探讨了它们的构建进展,以及 KG 驱动的多模式学习任务和 MMKG 任务,为相关研究提供了定义、评估基准和关键见解,最后讨论了当前的挑战和新兴趋势,如大型语言模型和多模式预训练策略的进展。本综述旨在作为 KG 和多模式学习研究领域的全面参考,为已经参与或考虑进行 KG 和多模式学习研究的研究人员提供洞察力,支持未来的工作。
Feb, 2024
本研究探索了将视觉知识整合到语言模型中以填补现有文本信息中缺失的相关性和物体属性信息的空白。研究发现,视觉知识传递可以在低资源和完全监督设置下均有效提高预先训练的语言模型在需要视觉知识的下游任务中的性能。
Mar, 2022