美餐之眼:多模态大型语言模型的分辨率混合适应
采用多种视觉特征与语言模型相结合的创新方法 MG-LLaVA,在感知任务中提供了出色的表现,并且超越了相似参数规模的现有模型,具备出色的目标识别能力。
Jun, 2024
LLaVA-UHD 是一种大型多模态模型,其中包括图像模块化策略、压缩模块和空间模式,它可以高效地感知任何宽高比和高分辨率的图像,并在多个基准测试中优于其他模型。
Mar, 2024
高分辨率是大型多模式模型(LMMs)的基础,本论文提出了一种新的框架和优化策略,通过混合适配器从全局视图中提取上下文信息,并引入可学习的查询嵌入来减少图像标记,同时通过相似性选择器选择用户问题的关键标记,实现更好的性能表现。此外,通过交替训练的方式平衡学习全局和局部方面,并引入高要求图像细节的数据集来增强局部压缩层的训练,提出的方法在各项基准测试中表现出优异性能。
Jun, 2024
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023
我们提出了一种基于多模态大语言模型(MLLM)的图像修复框架,名为多模态大语言模型修复助理(LLMRA),通过利用 MLLM 的印象能力来获取通用图像修复的降级信息,并通过 Context Enhance 模块和 Degradation Context based Transformer Network 将这些上下文嵌入整合到修复网络中,提供了输入低质量图像和恢复后高质量图像的低级属性描述。大量实验证明了 LLMRA 在通用图像修复任务中的卓越性能。
Jan, 2024
通过参数空间对齐,我们提出了一种新颖的方法来表示视觉信息,将其表示为模型权重,并使用感知权重与 LLM 的权重进行合并。这种方法不需要视觉令牌作为 LLM 的输入,从而减少了输入序列的长度并大大提高了效率。我们的 VLoRA 基于此方法,通过感知权重生成器将视觉特征转换为低秩属性的感知权重,通过在各种基准测试中实验证明,VLoRA 在 MLLMs 上实现了可比较的性能,并显著降低了训练和推断的计算成本。
May, 2024
利用大量的训练数据,本文提出了一种高分辨率可视文件助手(HRVDA),该模型利用内容过滤机制和指令过滤模块分别过滤不确定内容和指令的可视标记,从而在高分辨率图像的模型训练和推理方面取得高效的性能,同时在多个文档理解数据集上实现了最先进的性能。
Apr, 2024
为了解决多模态大型语言模型在处理高分辨率图像时的准确识别和理解复杂细节方面的挑战,我们提出了 InfiMM-HD,一种专门设计用于处理不同分辨率图像的创新架构,能够提高模型的视觉感知能力,同时降低计算成本。经验证明 InfiMM-HD 具有鲁棒性和高效性,为相关领域的研究提供了新的探索途径。
Mar, 2024
一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架,通过共享查询融合机制和增强的跨模态集成方法,结合视觉感知和多模态理解,以及混合了感知信息的提示生成机制,提供更准确的多模态解释,在各种多模态理解和视觉感知任务中展现卓越性能。
Jun, 2024