Feb, 2025

WavRAG:用于口语对话模型的音频集成检索增强生成

TL;DR本研究解决了现有检索增强生成框架无法有效处理语音输入的问题,导致重要音频信息的丢失及转换错误。通过引入WavRAG框架,该框架能够直接处理原始音频并将音频与文本集成为统一的知识表示,显著提升了口语对话模型的上下文处理能力并实现了10倍的加速。此研究拓展了检索增强生成在音频领域的应用边界。