multimodal llms | BriefGPT - AI 论文速递

关键词multimodal llms

搜索结果 - 29

告诉我你在哪里：多模态 LLMs 相遇地点识别
使用多模态大语言模型 (MLLMs) 来进行视觉地点识别，结合视觉观测和语言推理，借助视觉特征和 MLLMs 的推理能力，提供有效的地点识别解决方案。
PDF7 days ago
Cambrian-1：全面开放、以视觉为中心的多模态 LLMs 研究
我们引入了 Cambrian-1，一种以视觉为中心的多模态 LLMs（MLLMs）系列，通过视觉指导调整作为接口，评估各种视觉表示，并提出了空间视觉聚合器（SVA）来进一步改进视觉定位，同时降低标记数量。此外，我们讨论了从公开可用的资源中策
PDF8 days ago
Geneverse: 用于基因组学和蛋白质组学研究的开源多模态大型语言模型集合
基因组学和蛋白质组学研究中的大型语言模型（LLMs）应用前景广阔。我们提出了一种名为 Geneverse 的针对基因组学和蛋白质组学研究中三个创新任务的经过微调的 LLMs 和多模态 LLMs（MLLMs）集合。Geneverse 模型基于
PDF11 days ago
图形用户界面操作叙述器：行为发生的地点和时间是什么？
通过引入语言与视觉多模态学习模型，研究提高图像 OCR 识别能力并实现 GUI 自动化，开发了适用于 GUI 动作的视频字幕基准以及利用光标作为视觉提示的 GUI 视频字幕框架，提升了高分辨率截图的解释性。实验结果表明，即使对于如 GPT-
PDF13 days ago
MuirBench: 强大多图像理解综合基准测试
MuirBench 是一个全面的基准测试，侧重于多模式 LLM 的强大的多图像理解能力。MuirBench 由 12 个不同的多图像任务（如场景理解，排序）组成，涉及 10 个多图像关系类别（如多视图关系，时间关系）。通过评估 20 种最新
PDF19 days ago
多模态大型语言模型中文本和声音成分的推理研究
使用多模式语言模型（MLLMs）时，音频 MLLM 在生成音频标题时不能完全利用其 LLM 的基于文本的推理能力，可能是因为 MLLM 将听觉和文本信息分别表示，从而切断了 LLM 到音频编码器的推理路径。
PDF25 days ago
视觉增强零样本图像分类的多模态大语言模型
使用多模态大语言模型 (Multimodal LLMs) 的简单且有效方法实现了零样本图像分类，通过生成全面的文本表示从而在交叉模态嵌入空间中生成固定维度特征，在线性分类器上融合这些特征以进行分类，取得了令人瞩目的效果。
PDFa month ago
ICML为多模态 LLM 自动编码 Morph-Tokens
多模式 LLMs 的新方法利用形态标记解决了视觉理解和生成之间的冲突，并在多模式理解和生成中取得了 SOTA 结果。
PDF2 months ago
CVPRWiki-LLaVA: 分层的检索增强生成模型用于多模态语言模型
我们提出了一种名为 Wiki-LLaVA 的方法，通过一个分层检索流程，将多模态文档的外部知识源集成到 LLM 中，用作额外的上下文，从而增强了生成的对话的效果和准确性。我们在具有外部数据的视觉问答数据集上进行了大量实验，并证明了该方法的适
PDF2 months ago
量化和减轻多模大型语言模型中的单模偏差：因果视角
近期，大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力，但往往过于依赖单模态偏见（例如，语言偏见和视觉偏见），导致在复杂的多模态任务中回答错误。为了研究这个问题，我们提出了一
PDF3 months ago
Design2Code: 前端工程自动化的实现程度如何？
通过综合评估，我们发现 GPT-4V 在将视觉设计转换为代码实现的任务中表现最佳，其生成的网页在视觉外观和内容方面可以替代原始参考网页的 49％，并且在 64％的情况下被认为比原始参考网页更好。
PDF4 months ago
如何理解 “支持”？一种隐式增强的因果推断方法用于弱监督短语定位
利用弱监督短语定位和隐性增强的因果推断方法解决了存在于细粒度语义与多模态深度语义理解任务中的挑战，并对隐性增强数据集进行了评估，结果显示隐性增强的方法在隐性数据集上明显优于现有的基准模型，尤其在多模态深度语义理解方向上，相比先进的多模态 L
PDF4 months ago
停止推理！当多模态延续思维推理遇到对抗性图像
多模态 LLMs 对抗攻击鲁棒性的评估及 CoT 推理过程中的鲁棒性增强研究
PDF4 months ago
AAAI借助多模态的大型语言模型增强机器人操作的人工智能反馈
通过使用多模式语言模型从图像输入中提供自动化的偏好反馈来指导决策的研究，展示了一种能够理解机器人操纵任务中轨迹视频的多模式语言模型 CriticGPT，该模型能够提供分析和偏好反馈，并验证了所生成的偏好标签的有效性，实验评估表明其对新任务具
PDF4 months ago
视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型
使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多
PDF5 months ago
多模态大型语言模型中的图推理图渲染
本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性，并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。
PDF5 months ago
掌握文本到图像扩散：多模态 LLM 的重新字幕、规划和生成
提出一种全新的基于训练自由的文本到图像生成 / 编辑框架 RPG，该框架利用多模态 LLMs 的强大联想推理能力，提高了文本到图像扩散模型的组合性，并在多类别对象组合和文本 - 图像语义对齐方面优于 DALL-E 3 和 SDXL 等最先进
PDF5 months ago
大型语言模型在机器人领域的应用：机遇、挑战与展望
该研究全面概述了大型语言模型（LLMs）和多模态 LLMs 在各种机器人任务中的整合，并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明 GPT-4V 有效地提升
PDF6 months ago
DocLLM: 多模态文档理解的自适应生成语言模型
研究论文通过设计 DocLLM 模型，结合文本语义和空间布局，以有效地理解企业文件的丰富语义，摆脱昂贵的图像编码器，侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件，通过预训练和微调，优于当前最优模型在多个任务中的性能，并且对于先前
PDF6 months ago
V*: 多模态 LLMs 中的核心机制：引导的视觉搜索
我们引入了一个带有世界知识的低光磁单模型 (LLM) 引导的视觉搜索机制，用于处理高分辨率和视觉拥挤的图像，并结合 MLLM 来增强协同推理、情境理解和对特定视觉元素的精确定位，从而提供了一种新的 MLLM 元架构 (SEAL)。
PDF6 months ago