multimodal large language model | BriefGPT

关键词multimodal large language model

搜索结果 - 32

CVPRCVPR2024 基础 Few-Shot 目标检测挑战的解决方案
本报告介绍了一种增强的方法来解决基础性少样本物体检测任务，利用视觉语言模型 (VLM) 进行物体检测。为解决 VLM 可能遇到的与目标概念不一致的问题，本研究提出了 VLM + 框架，把多模态大型语言模型 (MM-LLM) 集成到 VLM
PDF14 days ago
VIP: 基于多模态大型语言模型的多功能图像外描绘
本文介绍了一种新颖的图像外延框架，利用多模态大语言模型（MLLM）自动提取和组织给定图像的遮罩部分和非遮罩部分的文本描述，并利用特殊的交叉注意力模块（CTS）增强图像的特定空间区域与文本提示部分之间的交互作用，从而实现了图像外延结果的定制化
PDFa month ago
引入视觉模态的高效 LLM 越狱
该研究聚焦于针对大型语言模型的越狱攻击，以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型，构建一个多模态大型语言模型（MLLM），我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS，并将其转换为文本空间
PDFa month ago
WorldGPT: 以语言模型为基础的多模态世界模型
构建于多模式大型语言模型（MLLM）之上的通用世界模型 WorldGPT，通过分析各领域的数百万个视频，使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力，我们还将其与一种结合了内存卸载、知识检索和上下文反思的
PDF2 months ago
Boter: 基于知识的 VQA 的知识选择和问答引导
Boter 框架是一个新型的知识选择和问答系统，通过利用多模态大型语言模型的强大感知能力，显著提升了开放域知识问答的性能，取得了 62.83％的最高准确率。
PDF2 months ago
Groma：针对多模态大语言模型的本地化视觉标记
Groma 是一个多模式大型语言模型，具有以图像感知为基础的细粒度视觉理解能力。它能够执行区域级任务并将图像与文字进行关联，通过在图像中定位兴趣区域并将其编码成区域标记的方式实现。此外，Groma 还利用 GPT-4V 和视觉提示技术创建了
PDF2 months ago
指南：执行的图形用户界面数据
通过介绍 GUIDE 数据集，本文旨在促进多模态大型语言模型 (MLLM) 在图形用户界面领域的研究和开发，特别是与自动化过程中的机器人的使用案例相关的任务。本数据集的多平台特性和多样化的网站覆盖范围使得探索自动化任务中的跨界面能力成为可能
PDF3 months ago
MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力：交错的视觉 - 文本标记
这篇论文介绍了 MiniGPT4-Video，一种用于视频理解的多模态大型语言模型。该模型能够处理时间视觉和文本数据，从而能够理解视频的复杂性。通过扩展 MiniGPT-v2 模型的能力，该模型能够处理连续的视频帧序列，使其能够理解视频。M
PDF3 months ago
LITE：多模态大型语言模型建模环境生态系统
提出了一种用于环境生态系统建模的多模式大型语言模型 LITE，通过将不同的环境变量转化为自然语言描述和折线图像来统一这些变量，并利用统一编码器来捕捉不同模态的空间 - 时间动态和相关性，借助领域指令来融合多模态表示进行预测，从而显著提高了环
PDF3 months ago
漫画文本补全的多模态 Transformer
这项研究通过引入一种新颖的多模态大型语言模型（Multimodal-LLM）架构，特别设计用于文字片断选择的闭合任务（Text-cloze），并通过使用 SimCLR 以自监督的方式将 comics 领域进行了特定调整，以达到比现有最先进模
PDF4 months ago
CVPRSNIFFER: 可解释的跨语境误信息识别的多模态大型语言模型
SNIFFER 是一种特别针对超文本误导检测和解释的新型多模态大型语言模型，通过在 InstructBLIP 上进行两阶段的指令调整，不仅能够检测文字和图像之间的不一致性，还可以利用外部知识进行上下文验证，实验证明 SNIFFER 的检测准
PDF4 months ago
多模态指导的细粒度视觉感知语言模型优化
提出了 AnyRef 模型，它能从多模态参考中生成像素级的物体感知和自然语言描述，从而提供更大的灵活性，超越了文本和区域提示，无需特定的设计。通过提出的重新聚焦机制，生成的定位输出可以更好地聚焦在参考对象上，从而隐含地融入了像素级的监督。该
PDF4 months ago
MMMModal -- 多图像多音频多轮多模态
我们介绍了一种开创性的多模态大型语言模型，能够在一个多轮对话中理解多图像、多音频和多图像 - 多音频。借助最先进的模型，我们利用 SigLIP 编码器进行视觉输入和 Whisper 编码器进行音频输入。值得注意的是，这个多模态大型语言模型是
PDF4 months ago
Agent Smith: 一张图片能以指数速度越狱一百万多模态 LLM 智能体
本文研究了多模式大型语言模型的安全问题，其中包括对抗图像和提示的风险以及在多智能体环境中存在的传染性越狱问题，研究结果展示了传染性越狱的可行性，并探讨了如何设计有效的防御机制。
PDF5 months ago
KDDLumos：赋予多模式 LLMs 场景文本识别能力
我们介绍了 Lumos，这是第一个具备文本理解能力的端到端多模态问答系统。Lumos 的核心是一个场景文本识别（STR）组件，用于从第一人称视角图像中提取文本，输出结果被用来增强多模态大型语言模型（MM-LLM）的输入。本文探讨了在构建 L
PDF5 months ago
GeReA: 针对基于知识的视觉问答的问题感知提示标题
我们提出了一种名为 GeReA 的生成 - 推理框架，利用视觉和语言信息激活了多模态大语言模型（MLLM）作为隐式知识引擎，用于基于知识的视觉问答，它在 OK-VQA 和 A-OKVQA 数据集上的测试准确率分别为 66.5% 和 63.3
PDF5 months ago
LLaVA-MoLE：稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突
在多领域图像 - 文本指导数据上进行指导微调是获取多功能多模态大型语言模型（MLLM）的关键，通过创建一组 MLP 层的 LoRA 专家，通过路由函数将每个令牌路由到最佳专家，以适应来自不同领域的令牌的自适应选择，从而解决了多领域指导数据的
PDF5 months ago
TinyGPT-V: 通过小型骨干实现高效的多模态大型语言模型
在先进的多模式学习时代，本文介绍了 TinyGPT-V 这一低计算资源需求的多模式大型语言模型，通过小型骨干网络实现了高效的语言 - 视觉交互，为设计成本效益高、高性能的多模式大型语言模型的进一步发展提供了基础。
PDF6 months ago
音视频 LLM 用于视频理解
该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机
PDF7 months ago
CoDi-2: 上下文、交错和交互的任意生成
CoDi-2 是一种多功能且互动的多模态大型语言模型，能够在任意输入 - 输出的模态范式下遵循复杂的多模态交织指令、进行上下文学习、推理、聊天、编辑等。通过对语言和模态进行编码和生成的对齐，CoDi-2 赋予大型语言模型不仅理解复杂的模态交
PDF7 months ago