- MLLM 作为视频叙述者:减轻视频片段检索中的模态不平衡
利用多模态大型语言模型 (MLLM) 的视觉文本理解能力,本研究以 MLLM 作为视频的叙述者,生成视频的文本描述,从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落,与视觉内容进行 - MG-LLaVA:面向多粒度视觉指导调整
采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA,在感知任务中提供了出色的表现,并且超越了相似参数规模的现有模型,具备出色的目标识别能力。
- EmoLLM:多模态情感理解与大型语言模型
通过引入 EmoBench 和 EmoLLM,基于多模态大型语言模型的多模态情感理解性能得到显著提升,提供了更深入、更细致的人类情感理解,为人机交互、心理健康支持和共情人工智能系统等领域的应用开发提供了可能。
- 多模态大型语言模型 (LLM) 用于平面旋转文档中的结构化数据提取的鲁棒性
探究多模态大型语言模型在文档中存在的旋转问题对数据提取准确性的影响,鉴别出各模型的安全平面旋转角,并研究旋转对模型幻觉的影响,探索现有的旋转检测与修正机制,并提出了包括开发更具鲁棒性的多模态架构和在模型预训练阶段引入旋转技术的替代方法,同时 - MMRel:MLLM 时代的关系理解数据集和基准
本研究提出了多模态关系理解(MMRel)数据集,其中包含大规模、高质量和多样化的数据,用于研究多模态大型语言模型在关系理解方面的能力,并证明了 MMRel 数据集的有效性。
- 让任何多模态大型语言模型都能高效地进行上下文学习
通过聚合多模态演示的图像信息到相应的语言部分的密集潜在空间,我们提出了一种称为 AIM 的通用轻量级框架来解决多模态 ICL 的两个问题。
- 自动驾驶中基于大型语言模型的超对齐框架
我们的研究引入了一个新的安全框架,利用多智能体大语言模型(LLMs)来保护自动驾驶车辆的敏感信息,同时确保 LLM 的输出符合驾驶规定和符合人类价值观。我们使用该框架评估了 11 个大语言模型驱动的自动驾驶提示的安全性、隐私性和成本方面,并 - MLLM-SR:基于多模态大型语言模型的对话符号回归
基于多模态大型语言模型,提出了一种对话式符号回归方法 MLLM-SR,可以通过使用自然语言指令描述需求来生成满足要求的表达式。通过在 Nguyen 数据集上的实验证明 MLLM-SR 在拟合性能上超过了现有方法,并且可以很好地理解添加到自然 - 多模态大型语言模型中信息存储和传递的理解
理解变压器模型中的信息存储和传输机制对推进模型理解的进展至关重要,最近的研究关注了大型语言模型(LLMs)中的这些机制,揭示了信息存储在模型参数中的方式以及特定提示下信息如何流入和流出这些参数,然而,这些研究尚未扩展到多模态大型语言模型(M - 多模态情感分析的数据不一致性评估
多模态情感分析中的情感语义一致性是一个普遍存在的挑战,我们通过引入模态冲突的测试集评估传统的多模态情感分析模型和多模态大型语言模型的性能,发现传统模型在面对语义冲突数据时表现出显著的性能降低,并指出了多模态情感分析中多模态大型语言模型的缺点 - Mobile-Agent-v2: 移动设备操作助手通过多智能体协作实现有效导航
通过多代理体系架构,Mobile-Agent-v2 为移动设备操作任务提供了较好的导航能力,相比于单代理架构的 Mobile-Agent,在任务完成方面取得了 30% 以上的改进。
- Video-MME: 多模式语言模型在视频分析中的首个综合评估基准
在这篇论文中,我们介绍了 Video-MME,这是第一个全方位的、多模式评估基准测试,用于评估 MLLMs 在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种 MLLMs,并发现商业模型 Gemi - MMCTAgent:复杂视觉推理的多模态批判性思维代理框架
这篇论文介绍了 MMCTAgent,这是一个新颖的多模态批判性思维代理框架,旨在解决当前 MLLM 在复杂视觉推理任务中的固有限制。通过从人类认知过程和批判性思维中获得灵感,MMCTAgent 迭代地分析多模态信息,分解查询,计划策略,并动 - 分析多模态大型语言模型的视觉感知
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的 - ICLR多模态大型语言模型的视觉定位对抗鲁棒性
使用多模态大型语言模型(MLLMs)对视觉定位进行饱受关注的对抗性攻击研究,通过提出三种对抗攻击范式来攻击 MLLMs 的视觉定位性能,进而为提高 MLLMs 的视觉定位的对抗鲁棒性提供了新的视角和强大的基线。
- Plot2Code:用于评估科学图形代码生成的多模态大型语言模型的综合基准
通过 Plot2Code 对大规模多模式语言模型的视觉编码进行全面评估,揭示了现有的大多数多模式语言模型在文字密集图中的视觉编码方面存在的困难,重度依赖于文本指导,希望评估结果能指导未来多模式语言模型的发展。
- CVPR利用 MLLM 的能力进行可迁移的文本到图像人物再识别
通过使用多模态大型语言模型,本文提出了一种用于人物图像重新识别的文本到图像转换方法,通过生成各种模板的描述来构建大规模数据集,同时使用相似性判断方法处理不准确的描述,从而显著提升直接转换的文本到图像人物重新识别性能。
- 具备 3D 理解的语言 - 图像模型
通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基 - TableVQA-Bench: 多表领域上的视觉问答基准
本文介绍了一个名为 TableVQA-Bench 的基准,用于表格视觉问答,该基准由现有的表格问答和表格结构识别数据集派生而来。通过使用样式表或提出的表格渲染系统,获取图像,并通过利用大型语言模型生成 QA 问题。我们在 TableVQA- - ACLSERPENT-VLM:利用视觉语言模型自我生成精化放射学报告
尽管现有方法经常会在基于文本的报告中凭空想象细节,而不能准确反映图像内容,但《Radiology Report Generation(R2Gen)》展示了多模态大型语言模型(MLLMs)如何自动化生成准确和连贯的放射学报告。为了缓解这个问题