VIP5: 面向推荐的多模态基础模型

May, 2023

VIP5: Towards Multimodal Foundation Models for Recommendation

Shijie Geng, Juntao Tan, Shuchang Liu, Zuohui Fu, Yongfeng Zhang

TL;DR该研究论文提出了一种考虑视觉和文本数据的多模态基础模型，以统一不同模态的推荐任务。这一模型包括多模态个性化提示和参数高效的培训方法，使得模型在时间和存储资源方面表现更加出色。

Abstract

computer vision (CV), natural language processing (NLP), and Recommender Systems (RecSys) are three prominent AI applications that have traditionally developed independently, resulting in disparate modeling and e

computer vision natural language processing recommender systems multimodal data foundation models

发现论文，激发创造

面向统一的多模式个性化：基于大型视觉语言模型的生成式推荐及其延伸

UniMP 是一种统一的多模式个性化系统的范式，通过使用多模态数据并消除任务和模态特定定制的复杂性，充分发挥了基础生成模型的灵活性和效力，以实现广泛的个性化需求，包括物品推荐、产品搜索、偏好预测、解释生成和用户引导的图像生成。

Mar, 2024

多模态基础模型：从专家到通用助手

本文综述了多模基础模型的分类和演变，重点关注从专业模型到通用助手的转变。研究领域包括两个核心主题：(i) 针对特定目的预训练的多模基础模型，包括学习视觉骨干进行视觉理解和文本到图像生成的方法；(ii) 旨在充当通用助手的多模基础模型的最新进展，包括受大型语言模型启发的统一视觉模型、多模语言模型的端到端训练以及将多模工具与语言模型相结合的方法。本文面向计算机视觉和视觉语言多模社区的研究人员、研究生和专业人士，他们渴望了解多模基础模型的基础知识和最新进展。

Sep, 2023

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019

定义视觉新时代的基础模型：调查与展望

视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。

Jul, 2023

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉 - 语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024

自监督多模态表征学习和基础模型调查

本文总结了一些具有里程碑意义的研究论文，直接或间接地构建了当今多模态自我监督学习的基础。该文章回顾了过去几年中用于每种模态的表示学习的发展情况，以及它们如何组合成多模态智能体。

Nov, 2022

多模态基础模型的小样本自适应：综述

多模态模型的少样本适应方法在医学成像等领域仍有待提高，研究者提出了基于提示、适配器和外部知识的三种技术方法，本论文对这些方法进行了综述及对比，并推导出了多模态模型少样本适应的泛化误差界限及相应解决方案。

Jan, 2024

感知，对话，然后适应：用于开放世界视频识别的基础模型的多模态知识传递

我们提出了一种通用的知识转移流程，通过从基础模型中逐步开发和整合外部多模态知识，提升开放世界视频识别的性能，在三个具有挑战性的开放世界视频基准数据集上达到了最先进的性能。

Feb, 2024

多模态表示学习：演进、预训练及其应用的综述

本综述论文全面介绍了深度学习多模态体系结构的演变和增强，以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务：包括最新的任务特定的深度学习方法，多模态预训练目标，以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。

Feb, 2023