- ACLSERPENT-VLM:利用视觉语言模型自我生成精化放射学报告
尽管现有方法经常会在基于文本的报告中凭空想象细节,而不能准确反映图像内容,但《Radiology Report Generation(R2Gen)》展示了多模态大型语言模型(MLLMs)如何自动化生成准确和连贯的放射学报告。为了缓解这个问题 - 多模态大语言模型的能量 - 延迟操控:冗长样本
利用不可察觉的干扰产生高能耗和时延开销,作者提出了一种针对多模态大型语言模型的攻击方法,通过生成冗长样本并设计一系列损失函数来延长生成序列长度,并提出了一个时间加权调整算法来平衡这些损失。
- 3DBench:可扩展的 3D 基准测试和指令调优数据集
评估多模态大型语言模型(MLLMs)的性能,集成点云和语言,面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步,从而妨碍该领域的进一步发展。我们引入了可扩展的 3D 基准测试和大规模指令调整数据集 3DBench,提供了一个全面评估 - MARVEL: 多维度的可视化评估和学习中的抽象和推理
多模态大型语言模型在抽象视觉推理方面呈现出近乎随机的性能,无法理解视觉特征和难以进行抽象推理。
- 利用大型语言模型推进实时流行病预测:COVID-19 案例研究
我们提出了 PandemicLLM,这是一个新颖的框架,利用多模态大型语言模型将疾病传播的实时预测转化为文本推理问题,能够整合实时、复杂、非数值型信息,并在 COVID-19 大流行中得到应用。该研究揭示了适用大型语言模型和表征学习提升疫情 - CoReS:推理与分割的协同舞蹈
我们引入了一种链式推理和分割(CoReS)的方法,通过引入具有顶级视觉层次结构的双链结构和上下文输入来增强多模式大型语言模型在复杂推理环境中的对象定位能力,大量实验证明了 CoReS 的卓越性能,超过了原来方法 7.1%。
- 面部情感行为分析与指令调整
面部情感行为分析对于从图像中理解人类的心理状态至关重要。我们引入了面向两个 FABA 任务的指示遵循数据集,一种同时考虑识别和生成能力的基准 FABA-Bench 以及一个新的 MLLM “EmoLA”。我们通过数据集和基准的实验揭示了面部 - CVPRJRDB-Social:一个用于理解社交群体内人际互动的多方面机器人数据集
通过引入 JRDB-Social 数据集,本研究利用最新的多模态大语言模型来评估其解读社会人类行为能力,以加深我们对于人类社会动态在机器人应用中的理解。
- VIAssist:为视觉障碍用户适应多模态大型语言模型
本研究探讨如何利用多模态大型语言模型(MLLMs)帮助视觉障碍(VI)人士提供视觉问题的答案,并介绍了 VIAssist,一种能够识别不受欢迎图像并提供详细操作建议,并基于这些图像提供可靠答案给用户的方法。实验结果表明,VIAssist 相 - M3D:利用多模态大型语言模型推进 3D 医学图像分析
该研究论文通过大规模的三维多模态医学数据集 M3D-Data 和多模态大型语言模型 M3D-LaMed,在各种三维医学任务上实现了先进的医学图像分析方法,并提出了用于自动评估的新的三维多模态医学基准 M3D-Bench。
- 多模态大型语言和视觉模型综述
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析 - 超越嵌入:多模型中视觉表格的潜力
本研究提出了一种用于多模态大型语言模型的新型视觉表达方法 ——Visual Table,它提供了层次化的视觉场景文本描述,并包括了场景描述和多个以对象为中心的描述,涵盖了类别、属性和实例级别的知识。通过生成的视觉表格作为额外的视觉表示,我们 - 视觉 CoT:在多模态语言模型中释放连续思维推理
该论文提出了 Visual CoT,一种利用多模态大型语言模型(MLLMs)的推理能力的新型流程,通过结合可解释性认知链条(CoT)推理来处理复杂的视觉输入,并提供可解释的思路。我们收集并引入了 Visual CoT 数据集,该数据集包含 - Elysium:透过 MLLM 探索视频中的物体层次感知
通过在大型视频数据集上进行大规模预训练,我们提出了一种全新的多模态大型语言模型(MLLM),名为 Elysium,该模型可以在视频中进行物体级任务,而无需任何其他插件或专家模型。
- 不是所有的注意力都有必要:针对多模态大型语言模型的参数和计算效率高的迁移学习
本文提出了一种针对多模态大型语言模型(MLLMs)的参数和计算效率高的新调优方法,称为 Efficient Attention Skipping (EAS)。通过评估注意力冗余并跳过不重要的多头注意力机制(MHAs)来加快推理速度,同时通过 - MathVerse: 您的多模式 LLM 真正看到视觉数学问题中的图表吗?
通过引入 MathVerse 基准测试,我们深入评估多模态大型语言模型(MLLMs)在解决视觉数学问题方面的能力,并提出了链式思维(CoT)评估策略以评估输出答案的细微推理步骤,以期为 MLLMs 的未来发展提供独特的见解。
- 反思后比较策略减轻视觉错觉
通过提出 Pensieve 方法,研究发现多模态大语言模型在处理视觉幻觉时会同时支持准确和不存在的内容,Pensieve 方法通过在推理中回溯相关图像作为参考,并将其与测试图像进行比较,从而减少视觉幻觉现象,并提升图像描述的细节和特定性。
- 强化多模态大语言模型的分割能力
我们扩展了多模态大语言模型(MLLMs)的输出,通过赋予其分割能力,从而使其能够同时输出与图像 - 语言提示相关的语言响应并分割语言提示中复杂问题或查询所关注的区域。我们提出了一种名为 LLaVASeg 的新颖 MLLMs 框架,利用连续思 - DialogGen: 多模态交互式对话系统用于多轮文本到图像生成
通过将多模态大型语言模型与文本到图像生成模型相结合,提出了一种用于多轮文本到图像生成的多模态交互对话系统,同时引入了一种全面的多模态对话评估基准,以评估模型在生成准确且连贯的多模态内容上的能力,包括模态切换和输出图像的连贯性。
- 双重焦点:在多模态大型语言模型中整合宏观和微观视角
通过在多模态大型语言模型中引入双重聚焦机制,该研究提出了一种新颖的框架,能够提升视觉 - 语言任务的性能,并在综合考虑全局、细节和综合因素的任务中展现出卓越优势。利用来自宏观和微观视角的图像信息和问题响应,该模型通过识别合适的子区域进行深入