多模式 LLMs 中的反向图像检索提示参数记忆

May, 2024

多模式 LLMs 中的反向图像检索提示参数记忆

Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs

Jialiang Xu, Michael Moor, Jure Leskovec

TL;DR使用 Reverse Image Retrieval（RIR）辅助生成的简单而有效的策略，对于 GPT-4 系列等最先进的多模态大型语言模型（MLLM）来说，RIR 显著提高了知识密集型的视觉问答性能，通过开放式 VQA 评估指标，GPT-4V 提高 37-43％，GPT-4 Turbo 提高 25-27％，GPT-4o 提高 18-20％。

Abstract

Despite impressive advances in recent multimodal large language models (MLLMs), state-of-the-art models such as from the GPT-4 suite still struggle with knowledge-intensive tasks. To address this, we consider Rev

multimodal large language models reverse image retrieval visual question answering knowledge-intensive tasks rir augmentation

发现论文，激发创造

大型语言模型下的交互式文本图像检索：一种即插即用方法

该论文主要关注互动式文本图像检索任务中对话形式的上下文查询问题。PlugIR 方法利用 LLMs 的一般指令遵循能力以两种方式解决了这个问题。该方法不仅提出了一种新颖的评估指标 BRI，还展示了在各种基准测试中优于零射击和微调基准线的优越性能。

Jun, 2024

语言模型的即时信息检索增强

本文的研究重点是探索使用信息检索作为预训练语言模型的增强，通过将信息检索与 GPT 2.0 相结合，可以实现 Gigaword 语料库中的困惑度降低 15％，同时还验证了该增强技术在事件共参考任务上的有效性。

Jul, 2020

检索重构：大规模语言模型推理

本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法，借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识，从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。

Dec, 2022

检索遇见推理：即使高中教科书知识也有益于多模态推理

通过引入一种名为 RMR 的新型多模式 RAG 框架，本研究在多模式视觉语言模型中整合了基于检索的答案生成和推理能力，并通过提供相关问答对进行训练来显著提高各种基准数据集上的性能，凸显该框架在改善视觉语言模型的推理能力方面潜力巨大。

May, 2024

MrRank：通过多结果排名模型提升问答检索系统

使用学习排序技术结合不同的信息检索系统，解决大型语言模型中幻觉和过时信息的问题，提高检索问题回答任务的性能，并在 SQuAD 数据集上取得了最先进的结果。

Jun, 2024

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了 10% 的召回率改善。

Apr, 2024

远程感知影像的知识感知文本 - 影像检索

通过使用外部知识图谱挖掘相关信息，我们提出了一种适用于遥感图像的知识感知文本 - 图像检索（KTIR）方法，该方法丰富了搜索查询中可用的文本范围，缓解了文本和图像之间的信息差距，实现更好的匹配。实验结果表明，该方法在遥感文本 - 图像检索中表现出优异的检索能力，超越了现有的最先进方法。

May, 2024

大型语言模型在信息检索中的应用：综述

信息检索系统和大型语言模型的融合，包括关键方面，如查询重写、检索、重新排序和阅读器，在这一快速发展的研究领域中提供全面的概述和深入的见解。

Aug, 2023

IM-RAG: 内心独白学习的多轮检索增强生成

通过集成 IR 系统与 LLMs 来支持多轮 RAG，提出了一种新的 LLM 中心方法 IM-RAG，优化通过强化学习和监督微调，实现在 HotPotQA 数据集上达到最先进性能的同时提供高度可灵活性的 IR 模块集成和学习的内部独白解释性。

May, 2024

大型语言模型的冗余信息推理能力分析

最近在大规模语言模型 (LLMs) 的研究中取得了令人印象深刻的进展，尤其在推理方面，对于实现人工智能 (AGI) 至关重要。然而，常用的测试基准可能无法完全展现这些模型在现实场景中的推理能力。为了解决这一问题，引入了一种新形式的问答任务，称为 Reasoning with Redundant Information Provided (RRIP)。该研究设计了改进版本的小学数学 8K (GSM-8K) 数据集，它有几个变体，关注冗余信息的不同属性。在传统的问答任务和 RRIP 任务上，评估了两个流行的 LLMs，分别是 LlaMA2-13B-chat 和生成预训练转换器 3.5（GPT-3.5）。研究结果表明，尽管这些模型在标准问答基准中取得了一定的成功，但它们在 RRIP 任务上的表现明显下降。该研究不仅突出了当前 LLMs 在处理冗余信息方面的局限性，还建议未来训练这些模型时应将冗余信息纳入训练数据，以提高在 RRIP 任务上的性能。

Oct, 2023