UniMP 是一种统一的多模式个性化系统的范式,通过使用多模态数据并消除任务和模态特定定制的复杂性,充分发挥了基础生成模型的灵活性和效力,以实现广泛的个性化需求,包括物品推荐、产品搜索、偏好预测、解释生成和用户引导的图像生成。
Mar, 2024
本文综述了多模基础模型的分类和演变,重点关注从专业模型到通用助手的转变。研究领域包括两个核心主题:(i) 针对特定目的预训练的多模基础模型,包括学习视觉骨干进行视觉理解和文本到图像生成的方法;(ii) 旨在充当通用助手的多模基础模型的最新进展,包括受大型语言模型启发的统一视觉模型、多模语言模型的端到端训练以及将多模工具与语言模型相结合的方法。本文面向计算机视觉和视觉语言多模社区的研究人员、研究生和专业人士,他们渴望了解多模基础模型的基础知识和最新进展。
Sep, 2023
本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合,涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面,旨在为相关社群未来的研究提供参考。
Nov, 2019
视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。
Jul, 2023
综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。
May, 2024
利用大型视觉 - 语言模型进行多模态推荐的研究中,研究人员通过引入用户历史和基于图像摘要生成的查询方式,克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题,并验证了该方法的有效性。
Feb, 2024
本文总结了一些具有里程碑意义的研究论文,直接或间接地构建了当今多模态自我监督学习的基础。该文章回顾了过去几年中用于每种模态的表示学习的发展情况,以及它们如何组合成多模态智能体。
Nov, 2022
多模态模型的少样本适应方法在医学成像等领域仍有待提高,研究者提出了基于提示、适配器和外部知识的三种技术方法,本论文对这些方法进行了综述及对比,并推导出了多模态模型少样本适应的泛化误差界限及相应解决方案。
Jan, 2024
我们提出了一种通用的知识转移流程,通过从基础模型中逐步开发和整合外部多模态知识,提升开放世界视频识别的性能,在三个具有挑战性的开放世界视频基准数据集上达到了最先进的性能。
本综述论文全面介绍了深度学习多模态体系结构的演变和增强,以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务:包括最新的任务特定的深度学习方法,多模态预训练目标,以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。
Feb, 2023