multimodal large language models | BriefGPT

关键词multimodal large language models

搜索结果 - 176

医学中大型语言模型与多模态大型语言模型的综述
该调查论文介绍了 LLMs 和 MLLMs 的发展背景和原则，并探讨了它们在医学中的应用场景、挑战和未来方向。通过追踪从传统模型到 LLMs 和 MLLMs 的演变，概括了模型结构以提供详细的基础知识。强调 LLMs 和 MLLMs 在医疗
PDF6 days ago
VS 助手：满足外科医生需求的多功能手术助手
通过利用高级多模态大型语言模型，我们提出了一种具有智能和多功能的手术助理（VS-Assistant），可以准确理解外科医生的意图，并完成一系列手术理解任务，例如手术场景分析、手术器械检测和需求分割。
PDF6 days ago
FreeVA: 离线 MLLM 作为无需训练的视频助手
通过对多模态大型语言模型（MLLMs）的最新进展进行实证研究，本文介绍了一个名为 FreeVA 的研究，旨在以无需训练的方式将现有基于图像的 MLLM 扩展到视频领域。研究发现，仅利用离线图像 MLLM 而无需额外训练的 FreeVA，在零
PDF7 days ago
CuMo：多模态 LLM 与协同升级混合专家的扩展
CuMo 是一种在多模态大型语言模型上通过使用混合专家模块来提高模型性能的方法，其在可扩展性和推理成本方面的优势使其在各种可视问答和视觉指令遵循基准上超越了现有的多模态语言模型。
PDF11 days ago
通过视觉令牌撤回，提升多模态大型语言模型的快速推理能力
通过引入 Visual Tokens Withdrawal 模块以提升 Multimodal large language models 在快速推理方面的性能，通过分析注意力集中现象和信息迁移现象，我们发现在深层的 MLLMs 中不需要视觉
PDF11 days ago
探究多模态 LLMs 作为驾驶世界模型
我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对
PDF11 days ago
OmniDrive: 全面的 LLM-Agent 自动驾驶框架，具备三维感知、推理和规划功能
基于多模态大型语言模型（MLLMs）的进展引起了对基于 LLM 的自动驾驶代理的兴趣，以利用其强大的推理能力。然而，利用 MLLM 的强大推理能力来改进规划行为具有挑战性，因为规划需要超越 2D 推理的全面 3D 情境感知。为了解决这个挑战
PDF18 days ago
MileBench: 在长上下文中评测多语言大型语言模型
该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。
PDF21 days ago
多模态大型语言模型的幻觉：一项调查
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对 MLLMs 中幻觉的理解，并激发该领域的进一步发展。
PDF21 days ago
SEED-Bench-2-Plus：基于多模态大型语言模型的文本丰富视觉理解基准测试
我们介绍了 SEED-Bench-2-Plus，这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准，通过涵盖现实世界中的三个广泛类别（图表、地图和网络），它们有效地模拟了复杂多样的文本丰富环境，并强调了当前 MLLMs 在文本丰
PDF25 days ago
真实化：释放大型多模态模型在真实材料上绘画 3D 对象的能力
利用 Multimodal Large Language Models (MLLMs)，特别是 GPT-4V，通过 Make-it-Real 方法，我们展示了 GPT-4V 能够有效地识别和描述材料，构建详细的材料库，并将其准确地与 3D
PDF25 days ago
逐项列出：多模式 LLM 的新数据源和学习范式
通过对图像上的视觉标签列表项化，将视觉标签与图像关联起来，研究表明这种新的训练范式可以提升 Multimodal Large Language Models 的视觉推理能力和减少幻觉，并加强对象 - 文本对齐。
PDF25 days ago
TinyChart：使用视觉令牌合并和思维程序学习的高效图表理解
TinyChart 是一个有效的 MLLM 图表理解框架，仅含 3B 个参数，通过采用思维程序（PoT）学习策略和视觉令牌合并模块，成功解决了图表理解过程中的计算负担和高分辨率图像的视觉特征序列长度问题，并在多个图表理解任务中达到了最先进性
PDF25 days ago
ImplicitAVE：一个开源数据集和隐式属性值提取的多模态 LLMs 基准
通过 ImplicitAVE 数据集，本研究提供了第一个公开的多模态隐式属性值提取数据集，并探索了多模态大型语言模型在隐式属性值提取中的应用，为多模态大型语言模型在 ImplicitAVE 数据集上建立了综合基准。
PDFa month ago
Cantor: MLLM 的多模态思维链激发
通过结合视觉环境获取和逻辑推理，本论文提出了一种名为 Cantor 的创新的多模态 CoT 框架，利用多模态大语言模型的认知能力解决复杂的视觉推理任务，该框架通过分析图像和问题实现对视觉输入的整合，利用大语言模型的高级认知功能生成更高级别的
PDFa month ago
DesignProbe: 多模式大语言模型的平面设计基准
多模式大型语言模型 (MLLMs) 在设计方面的能力是 DesignProbe 基准测试旨在研究的重点。通过对两个级别的设计元素和整体设计进行八个任务的测试，我们发现改进提示可以提高 MLLMs 的性能，并且添加图像比添加文本更能提升性能。
PDFa month ago
描述 - 理由：通过视觉理解训练改进多模态数学推理
通过视觉理解训练和数学推理学习，我们提出了一种名为 VCAR 的两步训练方法，以改善多模态大型语言模型在复杂数学推理中的表现。实验证明，VCAR 在高视觉要求的问题上明显优于仅依赖推理监督的基线方法。
PDFa month ago
增强对象智能：通过 XR-Objects 使模拟世界可交互
通过引入增强物体智能（AOI）这一新颖的 XR 交互范式，结合物体分割和分类以及多模态大型语言模型的能力，提出了一种无缝融合物理对象与交互数字实体的方法，并通过 XR-Objects 系统的设计和实现以及一系列使用案例和用户研究的展示，展现
PDFa month ago
MoVA: 将多模态背景下的视觉专家混合进行调整
通过将任务特定视觉专家与粗到细的机制自适应地路由和融合，MoVA 可在各种具有挑战性的多模态基准测试中显著提高性能。
PDFa month ago
眼见不一定全是实情：多模态大语言模型因果推理能力的基准测试
基于现有多模态大型语言模型 (MLLMs) 在视觉问答评测方面的认知和推理能力，我们提出了一个新的 CFMM（Counterfactual MultiModal）基准测试，以系统评估 MLLMs 的反事实推理能力，发现现有 MLLMs 往往
PDFa month ago