SQ-LLaVA: 大规模视觉语言助手的自问自答

Mar, 2024

SQ-LLaVA: 大规模视觉语言助手的自问自答

SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant

Guohao Sun, Can Qin, Jiamian Wang, Zeyuan Chen, Ran Xu...

TL;DR近期视觉语言模型的进展在视觉指导调整后，在视觉语言任务中展现了显著的泛化能力。这篇论文通过利用视觉指导数据中被忽视的上下文信息，训练模型进行自我监督学习以提问高质量问题，引入了称为 SQ-LLaVA 的新框架。SQ-LLaVA 在分析视觉线索和先前的语言知识时表现出高水准的泛化视觉理解能力，与传统的视觉指导调整方法相比，将 SQ-LLaVA 在更高质量的指导数据上进行微调可以持续提高性能，突显了自问技术在不同语境下实现更深入和细腻的视觉内容理解能力。

Abstract

Recent advancements in the vision-language model have shown notable generalization in vision-language tasks after visual instruction tuning. However, bridging the gap between the pre-trained vision encoder and the large language models becomes the whole network's bottleneck. To improve

vision-language model cross-modality alignment self-supervised learning sq-llava self-questioning techniques

发现论文，激发创造

LOVA3：学习视觉问答、提问和评估

通过引入名为 LOVA3 的创新框架，我们的研究旨在扩展 Multimodal Large Language Models（MLLMs）的能力，包括回答、提问和评估问题，在提高多模态理解能力和性能方面取得了一致的改进。

May, 2024

问题感知视觉变换器用于多模态推理

QA-ViT 是一种用于多模态推理的问题感知视觉 Transformer 方法，通过将问题感知能力直接嵌入到视觉编码器中，实现动态视觉特征，并且可以有效地应用于各种多模态架构，提高对视觉和场景文本的理解能力。

Feb, 2024

为视觉问答填补图像信息缺口：引导大规模语言模型主动提问

通过设计一种框架，使得大型语言模型能够主动提问以揭示图像中的更多细节，改进了知识驱动的视觉问答任务的性能。

Nov, 2023

如何将大型视觉语言模型专门化为数据稀缺的 VQA 任务？A：利用未标注图像进行自我训练！

本文介绍了一种自学习数据增强策略，可以在小规模的视觉问答数据集上优化大视觉语言模型，从而增强对对抗性搜索、反事实例子和重述的鲁棒性，提高领域泛化能力，并保留更多数字推理技能。

Jun, 2023

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

通过大型语言模型和推理问题提示改进零样本视觉问答

通过生成推理问题提示，为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性，从而显著提高了大型语言模型在零样本情景中的性能。

Nov, 2023

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

通过自监督学习克服语言先验的视觉问答

本研究介绍了一种自监督学习框架来解决视觉问答模型中固有数据偏差问题。我们利用自动生成的标签数据来平衡数据偏差，提出一种自监督辅助任务来减少语言先验的影响，从而提高 VQA 模型的准确性，无需引入额外的可视化注释。实验结果表明，我们的方法在常用基准 VQA-CP v2 上将整体准确性从 49.50％提高到 57.59％，可以将基于注释的方法的性能提高 16％，而无需使用外部注释。

Dec, 2020

自问自答：无监督知识引导的语言模型对齐

本文介绍了一种称为 Self-QA 的创新框架，利用大量无监督知识代替传统的人工撰写指导文件种子，从而生成更多正确和特定于领域的指导数据，以克服创建用于指导调整的监督配对问答数据所面临的挑战。

May, 2023

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试，语言指导使得 CLIP 的性能提高了 7.6%，BLIP-2 的性能提高了 4.8%；使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。

Oct, 2023