Yo'LLaVA: 个性化语言和视觉助手
对于个性化视觉 - 语言模型,我们探索了增加外部概念头和中间特征空间中的概念嵌入来实现对用户提供的概念的识别和自然整合,并将其应用于个性化图像字幕生成和个性化视觉问答,结果表明模型可以推广到学习概念的未见图像,并保持在无关输入上的模型行为。
Mar, 2024
该研究论文以大型多模型为主题,探索了通过特定数据集设计的提示词,使用 LMMs 来执行图像分类任务的功效,并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析,实验结果表明模型在 MNIST,Cats Vs. Dogs,Hymnoptera(Ants Vs. Bees)以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能,无需进行任何微调即可达到 85%,100%,77%和 79%的分类准确率。此外,细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进,强调了 LLVAs 的变革潜力和在现实场景中的多样应用。
Dec, 2023
提出了在大规模视觉 - 语言模型基础上,通过元学习实现个性化视频搜索的方法,其中用于表示每个实例的嵌入同时结合了共享和全局类别特征,并在 This-Is-My 和 DeepFashion2 数据集上展示出超过现有技术 15% 的相对改进。
Jun, 2023
该研究探讨了个性化调整和零 - shot 推理方法在主观任务上的应用,结果表明,与非个性化模型相比,个性化调整能够提高模型的推理能力,并在不同的大语言模型架构上实现了对情感识别和仇恨言论检测等数据集的一致性性能提升,这些发现凸显了个性化对于增强大语言模型在主观文本感知任务中的重要性。
Feb, 2024
通过将 LLM 作为连接多个专家模型的桥梁,采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题,该方法有效且简单,并在多个基准测试中获得了最先进的性能。
Nov, 2023
近期视觉语言模型的进展在视觉指导调整后,在视觉语言任务中展现了显著的泛化能力。这篇论文通过利用视觉指导数据中被忽视的上下文信息,训练模型进行自我监督学习以提问高质量问题,引入了称为 SQ-LLaVA 的新框架。SQ-LLaVA 在分析视觉线索和先前的语言知识时表现出高水准的泛化视觉理解能力,与传统的视觉指导调整方法相比,将 SQ-LLaVA 在更高质量的指导数据上进行微调可以持续提高性能,突显了自问技术在不同语境下实现更深入和细腻的视觉内容理解能力。
Mar, 2024
本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med),该助手能回答有关生物医学图像的开放性研究问题,并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。
Jun, 2023
该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。
Nov, 2023
LLaVA-Plus 是一个通用的多模态助手,扩展了大型多模态模型的功能,它通过在用户输入的基础上激活相关工具,并维护了一个预训练的视觉和视觉语言模型的技能存储库,以实现实际任务。实证结果表明,LLaVA-Plus 在现有功能上优于 LLaVA,并展示出新的功能。它在直接基于图像查询和整个人工智能与人类交互过程中积极参与中具有独特之处,显著提高了工具使用性能并实现了新的场景。
Nov, 2023
我们提出了一种名为 PerVL 的新学习设置,它允许自由语言的预训练模型独立于下游任务学习个性化的视觉概念,并通过新词嵌入扩展模型的输入词汇以推理它们。我们在图像检索和语义分割中证明了我们的方法能够从少量示例中学习个性化的视觉概念并有效地应用它们。
Apr, 2022