BRAVEn: 提升自我监督的视觉和听觉语音识别预训练

Apr, 2024

BRAVEn: 提升自我监督的视觉和听觉语音识别预训练

BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition

Alexandros Haliassos, Andreas Zinonos, Rodrigo Mira, Stavros Petridis, Maja Pantic

TL;DR我们提出了 BRAVEn，这是对最近的 RAVEn 方法的扩展，完全从原始的音频 - 视觉数据中学习语音表示。我们的修改使得 BRAVEn 在各种环境中成为自我监督方法中的领先者，并且我们通过增加大量未标记数据观察到有利的扩展行为。我们的结果表明，现成的未标记音频 - 视觉数据可以在很大程度上代替昂贵的转录数据。

Abstract

self-supervision has recently shown great promise for learning visual and auditory speech representations from unlabelled data. In this wo

self-supervision speech representations audio-visual data self-supervised methods unlabelled data

发现论文，激发创造

从原始数据中联合学习视觉和听觉语音表征

RAVEn 是利用自主学习方法联合学习视觉和听觉语音表征的一种多模态方法，其预训练目标涉及编码掩码输入并预测由缓慢演化的动量编码器生成的文本内容。发现 RAVEn 在视觉语音识别（VSR）方面优于所有自主学习方法，并结合仅使用 30 小时标记数据的自训练方法甚至优于针对 90000 小时非公共数据训练的半监督方法。在 LRS3 低资源设置中，RAVEn 在听觉语音识别和 VSR 方面均取得了最新的结果。

Dec, 2022

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

跨语言视觉言语表征学习

本文探讨了跨语言自监督视觉表示学习，使用 Raw Audio-Visual Speech Encoders（RAVEn）框架对无标注的多语言数据进行预训练，然后用标记的转录 fine-tune 视觉模型，实验证明多语言模型优于单语言模型，多语言胜过英文预训练，使用相似的语言效果更好，而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。

Mar, 2023

LiteVSR：通过学习无标签数据的语音表征实现高效的视觉语音识别

该论文提出了一种新颖的资源高效方法，利用任何训练过的自动语音识别（ASR）模型生成的语音表示来进行视觉语音识别（VSR）。通过远离最近文献中流行的资源密集型趋势，我们的方法从已训练的基于 Conformer 的 ASR 模型中提取知识，在标准的 VSR 基准测试中以极少的资源利用实现竞争性的性能。仅使用未标记的音频 - 视觉数据，我们的基准模型在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率（WER）。在有限标记数据的微调之后，词错误率降至 35%（LRS2）和 45.7%（LRS3）。我们的模型可以在几天内在单个消费级 GPU 上进行训练，并能够在老旧硬件上实时进行端到端的 VSR，为实现更易于获取和高效利用资源的 VSR 方法提供了一个路径。

Dec, 2023

LiRA: 通过自监督学习从音频中学习视觉语音表示

该研究提出了利用声音训练人脸运动的模型以提高口语阅读的准确度。

Jun, 2021

通过联合视听自监督从原始音频中学习语音表示

该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法，从而为音频视觉语音的自监督学习提供了潜力。

Jul, 2020

利用单模态自监督学习实现多模态音视频语音识别

本研究旨在通过使用未经标注的单模态数据和大规模的自监督学习来提高多模态音频 - 视觉语音识别，该方法在实验中表现出良好的效果，取得了相对改善 30% 的优越结果。

Feb, 2022

音频 - 视觉微调的音频识别模型

使用简单且快速的音频自我监督学习方法，并进行音视频模型的有指导微调，可在减少大量文本数据依赖的同时与最先进的音视频自我监督学习方法竞争，并且更为高效和快速。

Dec, 2023

通过强化学习利用语言和视觉的模态特定表征进行音视频语音识别

我们提出了一个基于强化学习的框架（MSRL），动态地协调模态不变和模态特异性的表示，从而稳定地提供互补信息，用于音视频语音识别任务，实验结果表明，此方法在 LRS3 数据集中取得了最新的成果。

Dec, 2022

自监督视频学习的拓展视野

BraVe 采用不同的视角和时间窗口对视频进行自我监督学习，利用不同的后骨干网络以实现对视图的增强和制作多种视听模型，成功在 UCF101、HMDB51、Kinetics、ESC-50 以及 AudioSet 视听分类基准测试中取得最先进的结果。

Mar, 2021