逐项列出：多模式 LLM 的新数据源和学习范式

Apr, 2024

逐项列出：多模式 LLM 的新数据源和学习范式

List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs

An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang...

TL;DR通过对图像上的视觉标签列表项化，将视觉标签与图像关联起来，研究表明这种新的训练范式可以提升 Multimodal Large Language Models 的视觉推理能力和减少幻觉，并加强对象 - 文本对齐。

Abstract

Set-of-Mark (SoM) Prompting unleashes the visual grounding capability of GPT-4V, by enabling the model to associate visual objects with tags inserted on the image. These tags, marked with alphanumerics, can be indexed via text tokens for easy reference. Despite the extraordinary perfor

set-of-mark prompting visual grounding capability multimodal large language models learning paradigm visual reasoning capabilities

发现论文，激发创造

GPT-4V 中超凡的视觉基础通过一组标记的提示释放

我们提出了 Set-of-Mark（SoM），一种新的视觉提示方法，用于释放大型多模态模型（如 GPT-4V）的视觉连接能力。

Oct, 2023

基于多模态大语言模型的联合视觉与文本提示改善目标中心感知

使用视觉和文本提示的新方法 (VTPrompt) 提高了 Multimodal Large Language Models 在物体感知方面的能力，并在三个基准测试上表现出显著的改进。

Apr, 2024

绘制与理解：利用视觉提示使 MLLMs 能够理解您想要的内容

我们介绍了 Draw-and-Understand 项目，其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了 SPHINX-V，一种新的端到端训练的多模域大型语言模型，用于连接视觉编码器、视觉提示编码器和语言理解模型，以实现各种视觉提示和语言理解。同时，我们还提出了 MDVP-Data 和 MDVP-Bench，用于促进多模域大型语言模型中的视觉提示研究，并提供了多领域数据集和具有挑战性的基准测试。我们的实验结果表明，SPHINX-V 通过视觉提示展现出了卓越的多模交互能力，并在详细的像素级描述和问答能力方面取得了显著的改进。

Mar, 2024

MM-PhyQA：多模态物理问题回答与多图 CoT 提示

利用现有模型对多步骤物理推理任务进行评估，通过引入多模态元素的高中级别物理问题的新数据集 MM-PhyQA，测试了包括 GPT-4 和 LLaVA 在内的多个大型语言模型的性能，并展示了基于 MI-CoT 提示技术的 LLaVA-1.5 13b 模型在测试集上的最佳结果，具有最高的 71.65% 准确率。

Apr, 2024

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉 - 语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024

探索基于提示学习范式的小型语言模型用于高效的领域特定文本分类

在本研究中，我们调查了小语言模型（具有不到 10 亿参数）与 prompt-learning 范例相结合，在零样本和少样本场景下针对零售业中客户 - 代理商互动的领域特定文本分类的潜力。我们的评估结果显示，在少样本设置下进行基于提示的模型微调时，220M 参数的典型小语言模型 T5-base 可以在有限的标记数据（高达全数据的 15%）上实现约 75% 的准确性，显示了小语言模型与 prompt-learning 的巨大潜力。基于此，我们进一步验证了主动少样本抽样和 prompt-learning 流程中的集成策略对显著性能提升的有效性。此外，在固定模型的零样本设置中，我们强调了一个关键的观察结果，即尽管具有约 1540B 参数的 GPT-3.5-turbo 可以达到 55.16% 的准确性，但当仅有 0.5% 参数的 FLAN-T5-large 使用经过优化的提示时，其准确性超过 31%，相比使用未经优化提示的准确性提升了近 13%。我们的发现强调了使用小语言模型进行 prompt-learning 的分类任务中的潜力，强调了主动少样本抽样和集成策略在少样本设置中的好处，并强调了零样本设置中提示工程的重要性。

Sep, 2023

通过多实例视觉提示生成器增强多模态大语言模型以实现视觉表征丰富化

本研究探讨了多模态大型语言模型的性能，通过利用视觉适配器将视觉表示与语言模型相结合，在多个视觉语言任务中取得了最先进的表现。研究还提出了一种通用组件，名为多示例视觉提示生成器（MIVPG），通过利用图像或样本相同的补丁之间的实例相关性，将丰富的视觉表示合并到语言模型中。对来自不同场景的三个公共视觉 - 语言数据集进行定量评估，结果表明所提出的 MIVPG 可以改善主要的视觉 - 语言任务中的 Q-former 模型。

Jun, 2024

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024

TAP：针对视觉分类任务自适应生成文本训练实例的有针对性提示

在此研究中，我们研究了一种基于文本的视觉与语言模型训练方法，并探索了如何根据下游任务的特点从大型语言模型中采样文本数据，以显著提升视觉识别性能。与先前方法相比，我们展示了达 (交) 领域特定适应的性能提高达 8.4％，精细化识别提高达 8.7％，零标记分类整体平均提高达 3.1％。

Sep, 2023

语音和图像的多模态单样本学习

研究机器人如何通过视觉和语音标签来学习多模态单样本匹配任务，并且提出了几种基线和高级模型，最后通过在配对的语音和视觉数字数据集上进行实验说明了 Siamese 卷积神经网络在 11 种跨模态匹配方面的卓越性能。

Nov, 2018