多模态大型语言模型的细粒度音频视觉联合表示

Oct, 2023

多模态大型语言模型的细粒度音频视觉联合表示

Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models

Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan...

TL;DR通过提出细粒度的音视频联合表示学习框架 (FAVOR)，同时感知音频和视觉输入流中的语音、音频事件以及图像或视频，利用因果关注模块增强音视频帧之间的因果关系捕捉，在音频、语音和图像任务上取得了有竞争力的单模态性能，并在需要细粒度信息或时间因果推理的视频问答任务上实现了超过 20% 的准确度改进，表现出了出色的视频理解和推理能力。

Abstract

audio-visual large language models (LLM) have drawn significant attention, yet the fine-grained combination of both input streams is rather under-explored, which is challenging but necessary for LLMs to understand general video inputs. To this end, a fine-grained audio-visual joint rep

audio-visual large language models multimodal llms audio-visual joint representation favor learning framework causal q-former structure

发现论文，激发创造

细粒度可听视频描述

本文介绍一项新的音频视觉语言建模任务：细粒度可听视频描述（FAVD），旨在为给定的听觉视频提供详细的文本描述，包括每个物体的外观和空间位置，移动物体的动作以及视频中的声音，本文还构建了第一个 fine-grained audible video description benchmark（FAVDBench），并提出了两个新的度量标准。我们使用先前的视频字幕模型加入了一个附加的音频分支的 audio-visual-language transformer 对该任务进行了初步的尝试，并证明了 fine-grained video descriptions 可帮助创建比字幕更复杂的视频。

Mar, 2023

音视频 LLM 用于视频理解

该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。

Dec, 2023

情感回归和分类任务中处理单一和多模态的多功能视听学习

提出了用于处理单模式和多模式情感情况的多功能音视频学习框架，通过音视频共享层，残差连接和单模态重构任务实现有效的表示学习，在情感属性预测任务上达到了新的最先进性能。

May, 2023

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024

通过联合注意力的递归融合实现音视频事件定位

本研究提出了一种新的多模态融合联合注意力机制，能够有效地从视听特征中学习联合表示，并通过递归式联合协同作用持续改进，从而在音视频事件定位任务中取得了明显的成果。

Aug, 2020

CoLeaF: 一个对比 - 协同学习框架，用于弱监督音频 - 视觉视频解析

通过使用 CoLeaF，一种新的学习框架，提高了弱监督音频 - 视觉视频解析的性能，通过在嵌入空间中优化跨模态上下文的集成，对于可听 - 可见事件，网络能够明确学习将跨模态信息结合起来，而对于不一致的事件进行过滤。

May, 2024

基于回归的情感识别中的音视频融合中的递归联合注意力

本文提出了一种递归联合注意模型，结合长短期记忆模块，用于融合语音和面部表情进行基于回归的情感识别，结果表明该模型比现有技术表现更好。

Apr, 2023

定向领域微调：为特定训练任务定制分开的模态

通过使用 LORA 方法，我们提出了使用特定领域的信息数据集进行模型参数微调的方法，我们的研究旨在提高 Video-LLaVA 模型在烹饪视频中生成特定食材列表和详细指导的能力。

Jun, 2024

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

Video-LLaMA 是一种多模态框架，通过将预训练的视觉和音频编码器与预训练的大型语言模型结合，实现对视频内容的理解，具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势，因此被视为具有潜力的音视频 AI 助手原型。

Jun, 2023