- INS-MMBench: 保险领域 LVLMs 性能综合评估的全面基准
本研究系统评估和总结了 LVLMs 在保险领域中的多模态任务,并提出了 INS-MMBench 作为第一个专门为保险领域量身定制的全面 benchmark,该评估不仅验证了我们的 benchmark 的有效性,还对当前 LVLMs 在保险领 - 面向视觉 - 语言地理基础模型:一项调查
本文全面审查了视觉 - 语言地理基础模型(VLGFMs),总结和分析了该领域的最新发展,包括 VLGFMs 的背景、动机、核心技术和应用,以及未来研究方向的洞察、问题和讨论。
- 诺米嵌入视觉:扩展潜在空间
描述了训练 nomic-embed-vision 的技术报告,它是一种高性能、开放代码、开放权重的图像嵌入模型,与 nomic-embed-text 共享相同的潜在空间。nomic-embed-vision 和 nomic-embed-te - 隐式多模态对齐:关于将冻结的 LLM 泛化到多模态输入
大型语言模型(LLMs)对多模态任务表现出令人印象深刻的性能,然而,我们仍然缺乏对其成功的适当理解。本研究将冻结的 LLMs 公开显示为图像、视频、音频和文本输入,分析其内部表示以了解其在文本输入之外的泛化能力。
- 利用 GPT-4V (ision) 进行保险业的初步探索
通过对 GPT-4V 在保险领域的能力进行探索,我们发现它在保险相关任务中展现出了出色的能力,不仅全面理解了保险领域中的多模态内容,还具备丰富的保险场景知识。然而,它在详细风险评估和损失评估方面存在明显不足,并在图像理解中出现了幻觉,并对不 - HAMMR: 分层多模态反应智能代理程序用于通用 VQA
利用大型语言模型(LLMs)与外部专用工具(LLMs+tools)相结合是解决多模态任务(如视觉问答)的最新范式。本研究以统一的视角提出 VQA 问题,并在包括计数、空间推理、OCR-based 推理、视觉指向、外部知识等各种 VQA 任务 - MoPE: 通过混合提示专家实现参数高效且可扩展的多模态融合
通过分解原始提示,基于混合提示专家(MoPE)技术实现了适应性捕获数据集级别和实例级别特征,并借助多模态配对先验在每个实例上选择最有效的提示语,从而提高了多模态融合的表达能力和可扩展性。在专家路由方面引入了正则化项,导致不同专家专注于不同概 - 基于上下文的多模态融合
通过上下文模态融合(CBMF)模型,结合了模态融合和数据分布对齐的方法,解决了多模态任务中数据分布不一致的问题,并且提供了一种经济高效的解决方案。
- INSTRAUG: 多模态指令微调的自动指令增强
通过自动指令增强方法名 INSTRAUG 的多模态任务中的精调大型语言模型(LLMs)可以在 12 个多模态任务中显著提高多模态大型语言模型(MLLMs)的对齐度,相当于多次扩大训练数据的好处。
- 多模态大型语言模型的统一幻觉检测
多模态大语言模型(MLLMs)在全方位任务中取得了显著进展,但幻觉问题成为其关键问题之一。我们的研究扩展了对幻觉检测的调查范围,并提出了一个新颖的元评估基准(MHaluBench),以促进幻觉检测方法的发展。我们还推出了一个新颖的统一多模态 - 生成多模态模型是上下文学习者
我们展示了一个 37 亿参数的生成式多模态模型 Emu2,通过在大规模多模态序列上训练,使模型具备了强大的多模态上下文学习能力,甚至能够解决需要实时推理的任务,如视觉提示和目标驱动生成。该模型在少样本情况下刷新了多个多模态理解任务的记录,并 - 本地化符号化知识蒸馏用于视觉常识模型
使用局部可见的常识模型来训练视觉 - 语言模型以支持图像内部推理。
- 大型语言模型的复合后门攻击
在这篇论文中,我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同,我们的组合后门攻击(CBA)将多个触发关键词分散在不同的提示组件中,这使得攻击更加隐蔽。我们的实验证明 CBA 在自然语言处理和多模态任务中都是有效的。我 - AnyMAL: 一种高效且可扩展的任意模态增强语言模型
我们提出了 Any-Modality Augmented Language Model (AnyMAL),这是一个统一模型,可以对多样化的输入模态信号(文本、图像、视频、音频、IMU 运动传感器)进行推理,并生成文本回复。AnyMAL 继承 - 图像、视频、音频和语言任务的统一模型
通过 UnIVAL 统一模型,可以有效地支持图像、文本、视频和音频等多种模态任务,并通过模型权重插值实现多模态模型融合,展示其在特定领域的分布外泛化能力。
- SPAE:使用固定的 LLMs 进行多模态生成的语义金字塔自编码器
本文介绍了语义金字塔自编码器(SPAE),它使得具有非语言模式(如图像或视频)的被冻结的 LLMs 能够执行理解和生成任务。我们的方法通过在冻结的 PaLM 2 和 GPT 3.5 上进行多样化的图像理解和生成任务中上下文学习实验证明,是首 - 多模式大型语言模型综述
本文旨在追踪和总结 MLLM 的最新进展,包括 MLLM 的公式,技术和应用,以及现有的挑战和有前途的研究方向。
- 差异掩蔽:选择连续预训练中需掩蔽的内容
提出了一种名为 “Difference-Masking” 的自监督学习预训练方法,在多语种和多模态视频任务中超越了基准方法,验证了其在自然语言处理和视觉等领域的有效性。
- i-Code Studio:一个可配置的、可组合的综合人工智能框架
文章提出了一个配置和可组合的框架 i-Code Studio,用于处理 AGI 中的多模态任务,并且成功地在影片文本检索、语音翻译、视觉问答等多个任务中实现了出色的结果。
- LLM 可以自行阅读和生成 CXR 图像
本研究利用 VQ-GAN 框架将图像的潜在表示作为一种文本令牌,通过对预训练 LLM 进行微调,实现了无需结构改变或额外训练目标的图像生成,并将其应用于胸部 X-ray 图像和报告生成任务中。