- MM-Instruct: 大型多模态模型对齐的生成视觉指令
该研究介绍了 MM-Instruct,这是一个大规模、多样化和高质量的视觉指导数据集,旨在增强大型多模态模型(LMMs)的指令跟随能力,并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据,并介绍了一个基于生成的指导数据来 - 针对大型多模型中的语音特定风险进行探究:一种分类、基准和洞见
在多模态设置中,特别是在语音模态中,检测高风险互动的挑战仍然未被广泛探索,本文提出了一个语音特定的风险分类方法,并创建了一个小规模数据集来评估当前大型多模态模型在检测这些风险类别方面的能力。
- 大型多模态模型时代中的指代表达理解评估再探
参考表达理解(REC)涉及根据文本描述定位目标实例。本研究质疑现有基准对大型多模态模型(LMMs)的全面性能力,通过手动检查现有基准,发现高标注错误率,并通过排除问题实例和重新评估多种 LMMs 来解决。为了评估现代 REC 模型,引入了 - PIN:一种适用于配对和交错多模态文档的知识密集数据集
最近,对大型多模态模型(LMMs)的最新进展借鉴了丰富的多模态数据集,以增强复杂的知识驱动任务的能力。然而,感知和推理错误的持续挑战限制了它们的效力,尤其是在解释复杂视觉数据和推断多模态关系方面。针对这些问题,我们引入了一种新颖的数据集格式 - 可学习的上下文向量用于视觉问答
学习型 ICV(L-ICV)从示范中提取必要的任务信息,改善 LMM 中的 ICL 性能,通过与传统 ICL 和其他不可学习的 ICV 方法相比,实验结果显示 L-ICV 能够显著降低计算成本并提高 VQA 任务的准确性。
- 奥林匹克竞技场:对超智能人工智能的多学科认知推理进行基准测试
人工智能的进化已经显著加速,主要得益于大型语言模型和大型多模态模型的进展,在问题解决和科学发现方面逐渐展现出与人类智力相当的潜在认知推理能力(即 AI4Science)。为了全面评估当前模型在认知推理能力方面的表现,我们引入了奥林匹克竞技场 - 通过迭代实验编程实现大型多模态模型自动基准测试
自动化实验设计的框架 APEx 可以借助大型语言模型和预先指定的工具库生成一组实验,并逐步编制科学报告,以驱动测试过程和生成自然语言的结果。
- 利用 LMM 激发的情感嵌入进行干扰图像检测
本研究通过利用大型多模型模型中编码的知识,提出了一种新的方法来解决干扰图像检测的任务。该方法通过提取通用语义描述和引发的情感来利用多模型模型中的知识,并利用 CLIP 的文本编码器获取文本嵌入。最后,将这些文本嵌入与相应的 CLIP 图像嵌 - LLARVA: 视觉动作指令调整增强机器人学习
通过使用纯指令调整的 Large Multimodal Models(LMMs),我们引入了 LLARVA 模型,该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境,并且利用预测中间的 2D 表达,即 “视觉迹线”,进一步对齐了 - MINT-1T:将开源多模态数据放大 10 倍:一万亿令牌的多模态数据集
介绍了迄今为止最广泛且多样化的开源多模态交错数据集 MINT-1T,其中包括十亿个文本标记和三十亿个图像,并分享了在该数据集上训练的大型多模态模型 LMMs 的性能与之前领先数据集 OBELICS 相媲美。
- 比较视觉指导优化
比较两个图像的共性和差异(CaD)是一种基本的人类能力,它是高级视觉推理和解释的基础,对于生成详细的和与上下文相关的描述、执行比较分析、新颖性检测以及基于视觉数据做出明智决策至关重要。然而,令人惊讶的是,最先进的人类视觉智能模型 - 大型多 - Yo'LLaVA: 个性化语言和视觉助手
本文介绍了将个性化主题嵌入到一组潜在令牌中的 Yo'LLaVA 方法,通过少量示例图像有效地学习并更有效地编码视觉属性,用于实现 Large Multimodal Models(LMMs)与特定主题的对话。
- CMC-Bench:走向视觉信号压缩的新范式
超低比特率图像压缩是一个具有挑战性和需求量大的主题。这篇论文介绍了一个基于图像 - 文本 - 图像的语义级压缩方法,通过验证不同模型的协同性能,证明了在超低比特率下一些模型的组合已超过最先进的视觉信号编解码器,同时强调了在压缩任务中进一步优 - VideoGPT+: 图像和视频编码器的综合应用以提升视频理解能力
VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performan - MobileAIBench: 用于设备上应用场景的 LLM 和 LMM 基准测试
通过使用较少参数和定量化等模型压缩技术,MobileAIBench 评估了多尺寸、定量化水平和任务,并在真实设备上测量延迟和资源消耗,旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察,加速移动 AI 研究和部署。
- 基于概念的大规模多模态模型可解释性框架
借助大型多模态模型(LMMs),本文提出了一种新颖的解释框架,通过字典学习的方法应用于令牌的表示,准确地解释了多模态概念,并定量和定性地评估了学习到的概念在视觉和文本方面的相关性与质量。
- F-LMM: 冻结大规模多模态模型的基础
通过冻结已训练好的 Large Multimodal Models(LMMs)并结合人机对话,我们提出了一种简单且有效的设计 F-LMM,可以在完全保留 LMMs 的通话能力的同时,在指示物镜分割和全景叙述理解等测试中实现有竞争力的性能。
- 基于大型多模态模型的石材劣化模式识别
通过对主要基础多模态模型的能力进行评估,我们系统性地研究了这些模型在识别和分类有助于文化遗产保护和修复的石质元素的异常和磨损模式方面的能力,并确定了这些模型在遗产保护与修复领域的优势和劣势。
- AAAI基于 LMM 的知识在图像分类任务中的利用
使用 Large Multimodal Models 中的 MiniGPT-4 模型,结合图像编码器和文本编码器提取语义描述,以提高图像分类任务的性能。
- 大型多模态模型在医学视觉问答中的令人尴尬的简单探测评估:比随机还差?
通过探测性评估和程序诊断,严格评估了 LMM 在医学影像学中的性能,揭示了目前顶尖模型在医学诊断问题上的表现不如随机猜测,并强调了对 LMM 在医学诊断等关键领域的可靠性进行更为健壮的评估的紧迫需求。