通过使用多模态大型语言模型,本文提出了一种用于人物图像重新识别的文本到图像转换方法,通过生成各种模板的描述来构建大规模数据集,同时使用相似性判断方法处理不准确的描述,从而显著提升直接转换的文本到图像人物重新识别性能。
May, 2024
该论文提出了一种叫做 MMET 的多模态等价 Transformer,可用于更加鲁棒的视觉 - 语义嵌入学习和人物重新识别,同时还引入了一种动态的遮罩机制,叫做 MMM,它可以加强其他模态的特征学习,从而提高性能。
Apr, 2023
提出一种高效的方法,通过调整图像多模态语言模型的图像融合模块,利用图像多模态语言模型的先验知识,实现从图像到视频多模态语言模型的资源高效转换,从而提高视频多模态语言模型的时间理解能力,以更少的数据和资源进行训练。
Apr, 2024
本文旨在追踪和总结 MLLM 的最新进展,包括 MLLM 的公式,技术和应用,以及现有的挑战和有前途的研究方向。
Jun, 2023
提出了 MMIDR 框架,用于教授大型语言模型在多模态错误信息检测中提供流畅、高质量的文本解释,通过数据增强和流程设计,将多模态错误信息转化为适当的指令遵循格式,再利用知识蒸馏方法将专有模型的解释能力传递给开源模型,实验证明 MMIDR 具有足够的检测性能,并能够提供有力的解释支持。
Mar, 2024
通过引入 pool-adapter 模块,保留视觉嵌入的位置信息,我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。
Nov, 2023
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
本文提出了一种名为 PMT 的深度学习框架,它采用渐进式共享模态转换器来解决 VI-ReID 任务中复杂的模态变化问题,并对模态共享特征进行可靠度和共性分析;同时提出了一种 Discriminative Center Loss (DCL),结合 Modality-Shared Enhancement Loss (MSEL) 来缓解大内部差异和小类间差异问题,从而更好地区分共享特征,该框架在 SYSU-MM01 和 RegDB 数据集上的表现优于现有的大多数最新状态 - of-the-art 方法。
Dec, 2022
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了 MLLMs 的视觉感知能力。
Jan, 2024
本文提出了一种基于多标签分类和记忆机制的非参数分类器的无监督人物重新识别方法,通过相似度计算和循环一致性保证预测标签的质量,并提高了 ReID 性能。利用标记的人物图像在其他领域中进行迁移学习,在多个大规模 ReID 数据集上进行实验,证明了该方法的卓越性能。
Apr, 2020