RAR: 检索与排序增强型 MLLM 用于视觉识别

Mar, 2024

RAR: 检索与排序增强型 MLLM 用于视觉识别

RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition

Ziyu Liu, Zeyi Sun, Yuhang Zang, Wei Li, Pan Zhang...

TL;DRCLIP 和 Multimodal Large Language Models（MLLMs）在识别广泛的候选人方面具有优势，RAR 结合了两种方法的优点，并通过建立多模式检索器和对 MLLMs 进行排名来提高对广泛和细粒度词汇的几次 / 零次识别能力，该方法在细粒度视觉识别、几次拍摄图像识别和零次识别设置下的物体检测等任务中显著提升了准确性。

Abstract

clip (Contrastive Language-Image Pre-training) uses contrastive learning from noise image-text pairs to excel at recognizing a wide array of candidates, yet its focus on broad associations hinders the precision in distinguishing subtle differences among fine-grained items. Conversely,

clip multimodal large language models rar few-shot/zero-shot recognition fine-grained visual recognition

发现论文，激发创造

RRAML: 强化检索增强机器学习

通过提出一种名为增强检索增强机器学习（RRAML）的新型框架，将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合，有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。

Jul, 2023

适应增强的召回器作为通用插件提升语言模型的泛化能力

以通用的文本检索插件为基础，通过增强适应性的文本检索器 (AAR)，为各种语言模型 (large target LMs ranging from 250M Flan-T5 to 175B InstructGPT) 提供外部知识，从而显着提高零样本推理的泛化能力。

May, 2023

使用自适应对抗训练提升检索增强语言模型的抗噪能力

这项研究将大型语言模型与检索增强生成相结合，提出了一种名为 RAAT 的新的检索增强自适应对抗训练方法，通过适应性对抗训练动态调整模型的训练过程以应对检索噪声，并通过多任务学习确保模型内部识别噪声上下文的能力。实验证明，使用 RAAT 训练的 LLaMA-2 7B 模型在不同噪声条件下显著提高了 F1 和 EM 分数。

May, 2024

多模态检索与排序的广义对比学习

我们提供了一个大规模的数据集，以促进未来的研究和评估，随后我们提出了一种用于多模态检索和排序的广义对比学习方法 (GCL)，其设计用于从细粒度排序中学习，实验结果表明，与基线模型 CLIP 相比，GCL 在域内任务中的 NDCG@10 增加 94.5%，在冷启动评估中增加了 26.3 至 48.8%。

Apr, 2024

ARL2：通过自导自适应相关标签对黑盒大语言模型进行对齐检索

通过利用大型语言模型（LLMs）从外部知识源获取相关信息，检索增强生成技术使 LLMs 能够适应特定领域并减少在知识密集型任务中的虚假数据，我们提出了一种名为 ARL2 的检索器学习技术，通过利用 LLMs 进行标注和评分，实现了从强大 LLM 监督中学习检索器，并且使用自适应自训练策略来筛选高质量和多样性的相关数据，有效降低了标注成本。大量实验证实了 ARL2 的有效性，在 NQ 上提高了 5.4％，在 MMLU 上提高了 4.6％，此外，ARL2 表现出强大的迁移学习能力和强大的零射击泛化能力。

Feb, 2024

检索增强的多模态语言建模

提出了一种 “检索增强的多模态模型”，结合了预检索检索任务和预训练的模型，在图像生成和描述生成任务上实现了比以前模型更好的表现，同时大大降低了训练成本。

Nov, 2022

LLMRA: 多模态大型语言模型恢复助手

我们提出了一种基于多模态大语言模型（MLLM）的图像修复框架，名为多模态大语言模型修复助理（LLMRA），通过利用 MLLM 的印象能力来获取通用图像修复的降级信息，并通过 Context Enhance 模块和 Degradation Context based Transformer Network 将这些上下文嵌入整合到修复网络中，提供了输入低质量图像和恢复后高质量图像的低级属性描述。大量实验证明了 LLMRA 在通用图像修复任务中的卓越性能。

Jan, 2024

RAVEN：多任务检索增强视觉 - 语言学习

该论文介绍了 RAVEN，一个多任务的检索增强视觉语言模型框架，通过有效的任务特定微调，无需额外的检索特定参数，该模型获得了在多个任务中都有效的检索能力，对图像字幕和 VQA 任务的广泛实验结果表明，与非检索基准线相比，在 MSCOCO 上提高了 + 1 CIDEr，在 NoCaps 上提高了 + 4 CIDEr，在特定的 VQA 问题类型上提高了近 3％的准确率，这表明了将 RAG 方法应用于视觉语言模型的有效性，标志着朝着更高效和可访问的多模态学习迈进。

Jun, 2024

在生物医学 NLP 中对检索增强的大型语言模型进行基准测试：应用、稳健性和自我意识

本文通过系统调查研究，评估了检索增强型大型语言模型在 5 个不同的生物医学任务（三元组抽取、链接预测、分类、问题回答和自然语言推理）中的影响，并在医学领域建立了四个不同的测试组，测试了三个代表性的大型语言模型与三个不同的检索器在 9 个数据集上的性能。

May, 2024

关于 RAG 遇见 LLM 的调研：走向检索增强的大型语言模型

检视了检索增强型大型语言模型（RA-LLMs）的现有研究，涵盖体系结构、训练策略和应用三个主要技术视角，并介绍了此类模型的基础知识和最新进展，以及它们为大型语言模型（LLMs）带来的实际意义和应用领域的挑战和能力，最后讨论了当前的局限性和未来研究的几个有前途的方向。

May, 2024