Yo'LLaVA: 个性化语言和视觉助手

Jun, 2024

Yo'LLaVA: Your Personalized Language and Vision Assistant

Thao Nguyen, Haotian Liu, Yuheng Li, Mu Cai, Utkarsh Ojha...

TL;DR本文介绍了将个性化主题嵌入到一组潜在令牌中的 Yo'LLaVA 方法，通过少量示例图像有效地学习并更有效地编码视觉属性，用于实现 Large Multimodal Models（LMMs）与特定主题的对话。

Abstract

large multimodal models (LMMs) have shown remarkable capabilities across a variety of tasks (e.g., image captioning, visual question answering). While broad, their knowledge remains generic (e.g., recognizing a dog), and they are unable to handle →

large multimodal models personalized subjects yo'llava latent tokens visual attributes

发现论文，激发创造

MyVLM: 为用户特定查询个性化 VLM

对于个性化视觉 - 语言模型，我们探索了增加外部概念头和中间特征空间中的概念嵌入来实现对用户提供的概念的识别和自然整合，并将其应用于个性化图像字幕生成和个性化视觉问答，结果表明模型可以推广到学习概念的未见图像，并保持在无关输入上的模型行为。

Mar, 2024

拓展界限：利用大型多模态模型探索零样本物体分类

该研究论文以大型多模型为主题，探索了通过特定数据集设计的提示词，使用 LMMs 来执行图像分类任务的功效，并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析，实验结果表明模型在 MNIST，Cats Vs. Dogs，Hymnoptera（Ants Vs. Bees）以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能，无需进行任何微调即可达到 85％，100％，77％和 79％的分类准确率。此外，细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进，强调了 LLVAs 的变革潜力和在现实场景中的多样应用。

Dec, 2023

元学习视觉语言模型以发现视频中的命名实例

提出了在大规模视觉 - 语言模型基础上，通过元学习实现个性化视频搜索的方法，其中用于表示每个实例的嵌入同时结合了共享和全局类别特征，并在 This-Is-My 和 DeepFashion2 数据集上展示出超过现有技术 15% 的相对改进。

Jun, 2023

个性化大型语言模型

该研究探讨了个性化调整和零 - shot 推理方法在主观任务上的应用，结果表明，与非个性化模型相比，个性化调整能够提高模型的推理能力，并在不同的大语言模型架构上实现了对情感识别和仇恨言论检测等数据集的一致性性能提升，这些发现凸显了个性化对于增强大语言模型在主观文本感知任务中的重要性。

Feb, 2024

u-LLaVA: 通过大型语言模型统一多模态任务

通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。

Nov, 2023

SQ-LLaVA: 大规模视觉语言助手的自问自答

近期视觉语言模型的进展在视觉指导调整后，在视觉语言任务中展现了显著的泛化能力。这篇论文通过利用视觉指导数据中被忽视的上下文信息，训练模型进行自我监督学习以提问高质量问题，引入了称为 SQ-LLaVA 的新框架。SQ-LLaVA 在分析视觉线索和先前的语言知识时表现出高水准的泛化视觉理解能力，与传统的视觉指导调整方法相比，将 SQ-LLaVA 在更高质量的指导数据上进行微调可以持续提高性能，突显了自问技术在不同语境下实现更深入和细腻的视觉内容理解能力。

Mar, 2024

LLaVA-Med: 训练一款大规模语言和视觉助手，用于生物医学领域，仅需一天

本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med)，该助手能回答有关生物医学图像的开放性研究问题，并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。

Jun, 2023

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

LLaVA-Plus: 学习使用创建多模态代理的工具

LLaVA-Plus 是一个通用的多模态助手，扩展了大型多模态模型的功能，它通过在用户输入的基础上激活相关工具，并维护了一个预训练的视觉和视觉语言模型的技能存储库，以实现实际任务。实证结果表明，LLaVA-Plus 在现有功能上优于 LLaVA，并展示出新的功能。它在直接基于图像查询和整个人工智能与人类交互过程中积极参与中具有独特之处，显著提高了工具使用性能并实现了新的场景。

Nov, 2023

个性化的冰冻视觉语言表征：这是我的独角兽 Fluffy

我们提出了一种名为 PerVL 的新学习设置，它允许自由语言的预训练模型独立于下游任务学习个性化的视觉概念，并通过新词嵌入扩展模型的输入词汇以推理它们。我们在图像检索和语义分割中证明了我们的方法能够从少量示例中学习个性化的视觉概念并有效地应用它们。

Apr, 2022