AV-SUPERB: 音频 - 视觉表示模型的多任务评估基准

Sep, 2023

AV-SUPERB: 音频 - 视觉表示模型的多任务评估基准

AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models

Yuan Tseng, Layne Berry, Yi-Ting Chen, I-Hsiang Chiu, Hsuan-Hao Lin...

TL;DR音频 - 视觉表示学习，一种开发具有类似于人类感知的系统的方法，利用声音和视觉信息之间的相关性。然而，目前的模型往往专注于有限的任务集，并且对学习表示的泛化能力尚不清楚。因此，我们提出了 AV-SUPERB 基准，它在涵盖语音和音频处理中的 5 个音频 - 视觉任务的 7 个数据集上，能够对单模音频 / 视觉和双模融合表示进行通用评估。我们评估了 5 个最近的自监督模型，并表明这些模型都不能泛化到所有任务，强调了未来需要改进通用模型性能的研究的必要性。此外，我们表明通过中间任务微调和使用 AudioSet 进行音频事件分类可以改进表示。我们发布了我们的基准测试，提供了评估代码和模型提交平台，以鼓励进一步进行音频 - 视觉学习的研究。

Abstract

audio-visual representation learning aims to develop systems with human-like perception by utilizing correlation between auditory and visual information. However, current models often focus on a limited set of tasks, and →

audio-visual representation learning generalization abilities av-superb benchmark self-supervised models intermediate-task fine-tuning

发现论文，激发创造

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

SUPERB-SG: 语音处理语义与生成能力的增强通用性能基准

介绍 SUPERB-SG - 一个新的基准测试，用于评估预训练模型的语义和生成能力，并使用轻量级方法测试预训练模型所学习表示的鲁棒性，以更全面地了解模型的效果和通用性。

Mar, 2022

Dynamic-SUPERB：面向语音的动态、协作和全面的教学调优基准

为了提供评价语音处理任务通用模型的基准，我们介绍了 Dynamic-SUPERB，该基准通过结合 33 个任务和 22 个数据集，提供了多维度的综合评估平台，并提出了一些建立基准的方法。评估结果表明，虽然这些基准在已知任务上表现得合理，但在未知任务上表现不佳，需要进一步的改进。

Sep, 2023

音视频语义分割进一步探究

本文提出一个新的策略：Visual Post-production (VPO)，旨在构建经济实惠、相对公正的音频 - 视觉语义分割基准数据集，为此引入了像素级音频 - 视觉对比学习方法并验证了该策略的有效性，最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频 - 视觉语义分割。

Apr, 2023

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

音视频分割

本文提出音频与视觉分割（AVS）问题，并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法 —— 时间上的像素级音视频交互模块，可以指导视觉分割过程，同时设计了正则化损失函数以鼓励音视频映射的训练，比较了几种现有方法，发现该方法有望在音频和像素级视觉语义之间搭建桥梁。

Jul, 2022

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

双向生成改进音频 - 视觉分割

通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频 - 视觉分割的改进性能，在 AVS 基准测试中取得新的最先进表现水平，并发布源代码与预训练模型。

Aug, 2023

UniAV：统一的音频视觉感知支持多任务视频定位

UniAV 是一种统一的视听感知网络，可以联合学习时间动作定位（TAL）、声音事件检测（SED）和视听事件定位（AVEL）任务，并通过使用预训练的文本编码器设计统一的语言感知分类器，实现对各种类型实例的灵活检测。UniAV 通过更少的参数比单一任务模型，在 ActivityNet 1.3、DESED 和 UnAV-100 基准测试中取得与最先进的任务特定方法相当或优秀的性能。

Apr, 2024

带语义的音视频分割

本论文提出了一种新的问题 —— 音视频分割（AVS），旨在为可听的视频帧中产生声音的物体输出像素级地图，并构建了第一个 audio-visual segmentation（AVS）基准，即 AVSBench，为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射，实验表明我们的方法能够有效地解决这个问题。

Jan, 2023