UDKAG: 增强大型视觉语言模型的最新知识

May, 2024

UDKAG: 增强大型视觉语言模型的最新知识

UDKAG: Augmenting Large Vision-Language Models with Up-to-Date Knowledge

Chuanhao Li, Zhen Li, Chenchen Jing, Shuo Liu, Wenqi Shao...

TL;DR提出了一种名为 UDKAG 的框架，通过互联网搜索来为 Large vision-language models 提供最新的知识，以应对视觉问答。使用层级过滤模型从搜索引擎返回的网站中有效地找到最有帮助的内容。实验结果表明，该框架的效果比 GPT-4V 高出约 25%。

Abstract

large vision-language models (LVLMs) are ignorant of the up-to-date knowledge, such as LLaVA series, because they cannot be updated frequently due to the large amount of resources required, and therefore fail in many cases. For example, if a LVLM was released on January 2024, and it wo

large vision-language models up-to-date knowledge internet-augmented generation visual question answering hierarchical filtering model

发现论文，激发创造

基于大型语言模型的知识导向视觉问答中的模态感知集成

基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集上的实验证明了 MAIL 的卓越性能。

Feb, 2024

CogMG：大型语言模型与知识图谱之间的协同增强

使用协作增强框架 CogMG，结合知识图谱解决了大型语言模型在问答场景中的不完整知识覆盖和知识更新不匹配的问题，并通过监督微调的 LLM 在一个代理框架中展示了在减少幻觉和提高答案的事实准确性方面取得的显著改进。

Jun, 2024

FakeNewsGPT4：通过知识增强的 LVLMs 推进多模态假新闻检测

本研究通过将大规模视觉 - 语言模型（LVLMs）与特定领域内的造假专有知识相结合，提出了 FakeNewsGPT4，用于检测多模态假新闻并获得更优跨领域性能。实验证明 FakeNewsGPT4 在公共基准测试中表现出优越的性能。

Mar, 2024

为视觉问答填补图像信息缺口：引导大规模语言模型主动提问

通过设计一种框架，使得大型语言模型能够主动提问以揭示图像中的更多细节，改进了知识驱动的视觉问答任务的性能。

Nov, 2023

走向自顶向下推理：可解释的多代理视觉问答方法

本论文提出了一个可解释的多智能体协作框架，通过利用在广泛语料库上训练的大型语言模型中嵌入的知识，以人类认知为灵感，使用三个智能体，即探索者、回答者和整合者，进行自顶向下推理过程，从而明确地构建特定图像场景的多视图知识库，以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估，并通过全面的实验结果证明了其广泛的适用性和可解释性。

Nov, 2023

面向大规模视频库的检索增强生成

通过使用大型语言模型（LLM）生成搜索查询，检索由语音和视觉元数据索引的相关视频片段，并将用户查询与此元数据集成以生成具有特定视频时间戳的响应，我们提出了一种在视频库中应用检索增强生成（RAG）的可互操作体系结构，该方法公有多媒体内容检索和人工智能辅助视频内容创建中潜在应用。

Jun, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

基于零样本知识生成的基于知识的视觉问答

基于预训练语言模型的知识生成方法在知识型视觉问答方面表现优于以往零样本方法，生成的知识普遍相关且有帮助。

Feb, 2024

增强想象力生成：学习为超大语言模型提供更丰富上下文的问题回答

提出了一种基于想象力的知识增强框架（IAG）和适用于问题回答的想象力丰富上下文方法（IMcQA），通过模拟人类补偿知识缺陷的能力，实现了在回答问题时仅依靠想象而不依赖外部资源。在三个数据集上的实验结果表明，IMcQA 在开放领域和封闭书籍设置中，以及分布内性能和分布外推广方面都具有显著优势。

Mar, 2024

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024