多模态大型语言模型中文本和声音成分的推理研究
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述,我们揭示了 MM-LLM 在各种应用中的转型潜力。
Mar, 2024
通过 Raven's Progressive Matrices 的变种,评估开源和闭源的多模态大型语言模型(MLLMs)的非语言抽象推理能力,发现了解决这类问题的困难以及开源和闭源模型之间巨大的差距,并揭示了个别视觉模块和文本模块的关键缺陷,最后通过 Chain-of-Thought 提示等方法,以显著提升模型性能(最高达 100%)。
Jan, 2024
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
大型语言模型在生成个性化内容和促进交互对话方面表现出色,但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力,突出了当前挑战和限制,阻碍了它们在复杂推理场景中的有效性。
Feb, 2024
本文介绍了一种通过图像内容和文字指令进行显式推理的新方法,采用大型多模态模型(LMM),并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时,朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。
Jan, 2024
综合评估了多模态大语言模型的现有评估协议,分类和说明了多模态大语言模型的前沿,介绍了多模态大语言模型在推理密集型任务上的最新趋势,并讨论了当前的实践和未来的发展方向。
Jan, 2024
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023
利用大型语言模型的处理和推理能力,我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器,以使语言模型能够解释语音输入,并可根据输入模态产生一致的响应。与先前的方法不同,我们的方法能摘要任意领域的口述内容,并通过变化语言模型提示策略产生不同风格的摘要,实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。
Jun, 2024
我们手动策划了一个专为多模态大型语言模型(MLLMs)设计的基准数据集,重点关注复杂推理任务,通过评估中间推理步骤来准确测量其推理能力。
Nov, 2023