音视频零样本学习的时间和跨模态注意力

ECCVJul, 2022

音视频零样本学习的时间和跨模态注意力

Temporal and cross-modal attention for audio-visual zero-shot learning

Otniel-Bogdan Mercea, Thomas Hummel, A. Sophia Koepke, Zeynep Akata

TL;DR该研究提出了一种多模态和时间交叉注意力框架，可以利用音频和视觉信息的自然语义和时间对齐关系来实现音频 - 视觉广义零样本学习，并在多个基准测试中取得了最先进的性能。

Abstract

audio-visual generalised zero-shot learning for video classification requires understanding the relations between the audio and visual information in order to be able to recognise samples from novel, previously u

audio-visual zero-shot learning temporal alignment multi-modal cross-attention

发现论文，激发创造

跨模态关注和语言的视听通用零样本学习

该论文提出了基于视频和音频数据的零样本学习方法，通过跨模态注意力学习多模态表示，并利用文本标签嵌入将知识从已见类别转移到未见类别，并在三个不同规模和难度的音视频数据集上进行了基准测试，结果表明，所提出的 AVCA 模型在所有三个数据集上均取得了最先进的性能。

Mar, 2022

AVGZSLNet: 多模嵌入重构标签特征的音视频广义零样本学习

本文提出了一种新的多模式推广零样本学习方法，使用文本嵌入的语义相关性将音频和视频嵌入与相应类别标签文本特征空间对齐，使用交叉模态解码器和组合三元组损失，在多模态设置中来执行零样本学习，实验证明该方法在各种模态下的推广零样本分类和检索任务中都优于其他模型。

May, 2020

面向音视频零样本分类和检索的联合多模态嵌入

本文提出了一种基于视听多模态的零样本学习（ZSL）方法，针对视频进行分类和检索。作者证明了视听模态均对视频的 ZSL 非常重要，提出了一个利用已有大规模音频事件数据集构建的视听多模态数据集，并通过嵌入学习方法实现零样本分类和检索任务中加入音频模态的性能提升，并提出了一种新的方法来预测 ' 主导 ' 模态，从而证明了该视听多模态方法在未知测试类中仍具有推广能力。

Oct, 2019

使用预训练大型多模态模型的音频视觉广义零样本学习

利用预训练模型，包括 CLIP 和 CLAP 提取特征，结合文本编码嵌入以提高性能，我们提出了一个仅依赖前馈神经网络的简单而有效的模型来处理音频视觉的零样本学习，并在 VGGSound-GZSL、UCF-GZSL 和 ActivityNet-GZSL 等数据集上取得了最先进的性能。

Apr, 2024

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022

自监督视听表示学习的协同关注网络

本文提出了一种基于自我监督和共注意力机制的框架，通过区分具有关联性的视觉和声音信息，提出了三种不同的共注意力模块以训练神经网络，并通过测试了解了该方法的广泛和可转移性，成功地在先前的任务中取得了最先进的结果，解决了多声源场景的问题。

Aug, 2020

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

超几何音频 - 视觉零样本学习

音频 - 视频零样本学习通过使用双模态数据进行超几何学习，探索更复杂的层次化数据结构，实现曲率感知，从而在 VGGSound-GZSL、UCF-GZSL 和 ActivityNet-GZSL 三个数据集上实现了 3.0%、7.0% 和 5.3% 的调和平均改进。

Aug, 2023

观看、倾听和描述：全局和局部对齐的跨模态关注力用于视频字幕生成

提出了一种新的分层对齐交叉模态注意力 (HACA) 框架来学习和选择性地融合不同模态的全局和本地时间动态，在视频字幕任务中，首次验证了深度音频特征的卓越性能，该模型显著优于先前最佳系统并在广泛使用的 MSR-VTT 数据集上实现了新的最新成果。

Apr, 2018

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018