Jun, 2024

多模态大型语言模型中文本和声音成分的推理研究

TL;DR使用多模式语言模型(MLLMs)时,音频 MLLM 在生成音频标题时不能完全利用其 LLM 的基于文本的推理能力,可能是因为 MLLM 将听觉和文本信息分别表示,从而切断了 LLM 到音频编码器的推理路径。