Lumos：赋予多模式 LLMs 场景文本识别能力

KDDFeb, 2024

Lumos：赋予多模式 LLMs 场景文本识别能力

Lumos : Empowering Multimodal LLMs with Scene Text Recognition

Ashish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour...

TL;DR我们介绍了 Lumos，这是第一个具备文本理解能力的端到端多模态问答系统。Lumos 的核心是一个场景文本识别（STR）组件，用于从第一人称视角图像中提取文本，输出结果被用来增强多模态大型语言模型（MM-LLM）的输入。本文探讨了在构建 Lumos 时遇到的与 STR 质量、整体延迟和模型推理相关的各种挑战，以及克服这些障碍所采用的系统架构、设计选择和建模技术。我们还对每个组件进行了全面的评估，展示了高质量和高效率。

Abstract

We introduce lumos, the first end-to-end multimodal question-answering system with text understanding capabilities. At the core of lumos i

lumos multimodal question-answering system scene text recognition multimodal large language model system architecture

发现论文，激发创造

Uni-SMART: 通用科学多模态分析与研究变换器

Uni-SMART 是一种创新模型，旨在深入理解多模式科学文献，通过量化评估在多个领域展示了超越文本焦点的大型语言模型的卓越性能，同时探索了专利侵权检测和图表的细致分析等实际应用，凸显了 Uni-SMART 的适应性和革新性。

Mar, 2024

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

Scene-LLM: 扩展语言模型用于 3D 视觉理解和推理

介绍了 Scene-LLM，一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的 3D 视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的 3D 帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

推进大型多模型：明确的推理链与视觉问题生成

本文介绍了一种通过图像内容和文字指令进行显式推理的新方法，采用大型多模态模型（LMM），并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时，朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。

Jan, 2024

语言远非万能：将感知与语言模型对齐

本文介绍了 Kosmos-1，它是一个多模态大语言模型（MLLM），可以感知一般模态，可以在上下文中学习，可以零 - shot 地遵循说明，并在各种任务上取得了卓越的性能，包括语言理解、生成，多模态对话，图像字幕，视觉问答等，并证明 MLLM 可以从跨模态转移中受益，即从语言到多模态和从多模态到语言。此外，我们还介绍了 Raven IQ 测试数据集，用于诊断 MLLM 的非语言推理能力。

Feb, 2023

城市区域概述与大型语言模型相结合

通过引入文本模态，利用大型语言模型（LLMs）的能力，本文介绍了一种集成文本模态于城市影像特征建模的框架 UrbanCLIP，并以四个中国主要大都市为例，对三个城市指标进行预测，相较于最先进的方法，平均提升了 6.1% 的 R^2 表现。

Oct, 2023

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

超越文字：多模态训练提升语言模型在真实性和伦理方面的能力

多模态大型语言模型（MLLMs）训练基于大型语言模型（LLM），具备理解多模态输入和生成文本响应的增强能力。本研究表明，视觉指导调整在纯自然语言处理（NLP）环境中意外且有趣地帮助模型实现了改进的真实性和道德一致性。

Sep, 2023

ModaVerse: 用 LLMs 高效转换模态

引入了 ModaVerse，一种多模态大型语言模型（MLLM），能够理解和转换图像、视频和音频等不同模态的内容。通过在自然语言层面上进行输入 / 输出对齐，避免了潜在特征对齐的复杂性，简化了现有 MLLM 的多个训练阶段，从而显著降低了数据和计算成本。在多个基准实验中，我们的方法取得与最先进技术相当的性能，同时在数据使用和训练时间上实现了显著的效率提升。

Jan, 2024