多模态大型语言模型中文本和声音成分的推理研究

Jun, 2024

多模态大型语言模型中文本和声音成分的推理研究

What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models

Enis Berk Çoban, Michael I. Mandel, Johanna Devaney

TL;DR使用多模式语言模型（MLLMs）时，音频 MLLM 在生成音频标题时不能完全利用其 LLM 的基于文本的推理能力，可能是因为 MLLM 将听觉和文本信息分别表示，从而切断了 LLM 到音频编码器的推理路径。

Abstract

large language models (LLMs) have demonstrated remarkable reasoning capabilities, notably in connecting ideas and adhering to logical rules to solve problems. These models have evolved to accommodate various data modalities, including sound and images, known as →

large language models multimodal llms reasoning capabilities captioning/classification experiment audio mllm

发现论文，激发创造

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

非言语抽象推理的研究：多模态大型语言模型的好奇之境

通过 Raven's Progressive Matrices 的变种，评估开源和闭源的多模态大型语言模型（MLLMs）的非语言抽象推理能力，发现了解决这类问题的困难以及开源和闭源模型之间巨大的差距，并揭示了个别视觉模块和文本模块的关键缺陷，最后通过 Chain-of-Thought 提示等方法，以显著提升模型性能（最高达 100%）。

Jan, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

一项测试模型在某些推理任务中的能力的案例研究

大型语言模型在生成个性化内容和促进交互对话方面表现出色，但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力，突出了当前挑战和限制，阻碍了它们在复杂推理场景中的有效性。

Feb, 2024

推进大型多模型：明确的推理链与视觉问题生成

本文介绍了一种通过图像内容和文字指令进行显式推理的新方法，采用大型多模态模型（LMM），并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时，朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。

Jan, 2024

多模态大型语言模型（MLLMs）的推理能力探索：多模态推理中新兴趋势的综述

综合评估了多模态大语言模型的现有评估协议，分类和说明了多模态大语言模型的前沿，介绍了多模态大语言模型在推理密集型任务上的最新趋势，并讨论了当前的实践和未来的发展方向。

Jan, 2024

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

CORE-MM: 多模态大型语言模型的复杂开放式推理评估

我们手动策划了一个专为多模态大型语言模型（MLLMs）设计的基准数据集，重点关注复杂推理任务，通过评估中间推理步骤来准确测量其推理能力。

Nov, 2023