基于大型语言模型的多模态检索用于语音识别

Jun, 2024

基于大型语言模型的多模态检索用于语音识别

Multi-Modal Retrieval For Large Language Model Based Speech Recognition

Jari Kolehmainen, Aditya Gourav, Prashanth Gurunath Shivakumar, Yile Gu, Ankur Gandhe...

TL;DR提出 kNN-LM 和跨注意力技术两种方法的多模态检索，证明了其在语音识别任务上优于基于文本的检索方法，对多模态语言模型基准线具有最高水平的识别结果。

Abstract

retrieval is a widely adopted approach for improving language models leveraging external information. As the field moves towards multi-modal

retrieval multi-modal language models cross-attention techniques speech-based

发现论文，激发创造

利用大型语言模型的生成式多模态知识检索

我们提出了一种创新的端到端生成框架，用于多模态知识检索，通过利用大型语言模型 (LLMs) 作为虚拟知识库，使用对象感知的前缀调优技术来指导多粒度视觉学习，将多粒度视觉特征对齐到 LLM 的文本特征空间中，通过统一格式的指令数据构建模型训练，最后，我们提出了知识引导的生成策略，在解码步骤中施加先验约束，促进独特知识线索的生成，在三个基准测试中实验证明，与强基线方法相比，在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。

Jan, 2024

大规模语言模型在多模态搜索中的应用

多模态搜索系统结合图像和文本，通过增强匹配能力、推理能力和上下文感知的查询解析和重写，提供用户与其搜索意图自然有效的交互。在 Fashion200K 数据集上，我们引入了一种新颖的多模态搜索模型，并提出了结合大型语言模型的搜索界面，以实现与用户的对话式互动和上下文考虑的搜索体验的升级，为购物助手提供了类人交互和全面的搜索体验。

Apr, 2024

将 LLMs 转化为跨模态和跨语言检索系统

使用大型语言模型进行多模态双编码检索系统，能够在多种语言中匹配语音和文本，提升召回率并实现跨语言匹配。

Apr, 2024

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端，我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验：首先，只使用从音频波形中获得的声学信息来训练分类器；其次，将自动语音识别（ASR）系统的解码器输出，如 1 最佳假设，作为大型语言模型（LLM）的输入特征；最后，探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型，在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模，并使用低秩适应来进行训练，在我们的数据集上进一步降低了相对误差率高达 18%。

Mar, 2024

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023

生成跨模态检索：以检索和超越为目的的多模态语言模型中的图像记忆

构建在生成式语言模型基础上的多模态大型语言模型（MLLMs）拥有记忆和重新召回图像能力，介绍了一种基于生成式跨模态检索框架的方法，通过将图像存储在 MLLMs 中以实现记忆功能，并有效地进行跨模态检索。

Feb, 2024

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018

多模态查询的端到端知识检索

本文介绍了一个新的数据集 ReMuQ，针对跨媒体检索的任务，提出了一个直接处理文本和图像输入的 Retriever 模型 `ReViz`，并引入了一个新的预训练任务，实现了对多模态查询的知识检索，并在两个数据集上取得了优秀的检索效果。

Jun, 2023

Wiki-LLaVA: 分层的检索增强生成模型用于多模态语言模型

我们提出了一种名为 Wiki-LLaVA 的方法，通过一个分层检索流程，将多模态文档的外部知识源集成到 LLM 中，用作额外的上下文，从而增强了生成的对话的效果和准确性。我们在具有外部数据的视觉问答数据集上进行了大量实验，并证明了该方法的适用性。

Apr, 2024

多模态数据和资源高效的设备导向语音检测与大型基础模型

通过消除触发短语的需要，本研究探索了使用流式音频录制的设备麦克风记录的信号来确定用户是否在与虚拟助手进行交流，通过将语音识别系统的最佳假设和解码器信号与音频编码器的声学表示结合为大型语言模型的输入特征来实现这一目标。使用低秩适应和前缀调整的组合来对 80,000 个或更少的多模式数据示例进行训练，我们将所提出的系统与单模式基线进行比较，结果表明多模式方法实现了更低的等错误率（EER），同时仅使用了训练数据的一小部分，并且低维度的专门音频表示比高维度的普通音频表示导致更低的错误率（EER）。

Dec, 2023