Whisper-Flamingo: 集成视觉特征于 Whisper 中用于音频 - 视觉语音识别和翻译

Jun, 2024

Whisper-Flamingo: 集成视觉特征于 Whisper 中用于音频 - 视觉语音识别和翻译

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

Andrew Rouditchenko, Yuan Gong, Samuel Thomas, Leonid Karlinsky, Hilde Kuehne...

TL;DRAudio-Visual Speech Recognition (AVSR) uses Whisper-Flamingo, a model that integrates visual features, to improve speech recognition and translation performance in noisy conditions for multiple languages.

Abstract

audio-visual speech recognition (avsr) uses lip-based video to improve performance in noise. Since videos are harder to obtain than audio, the video training data of →

audio-visual speech recognition avsr whisper-flamingo visual features noisy conditions

发现论文，激发创造

Audio Flamingo: 一种具备少样本学习和对话能力的新型音频语言模型

音频 Flamingo 是一个新颖的音频语言模型，具备强大的音频理解能力、通过上下文学习和检索快速适应未见任务的能力、以及强大的多轮对话能力。通过引入一系列的训练技术、架构设计和数据策略，我们提高了模型的这些能力，并在各种音频理解任务上进行了详细评估，取得了新的最先进水平。

Feb, 2024

WhisBERT: 亿字规模的多模式文本音频语言建模

多模态训练对语言模型的质量和效率有所改善，但在复杂目标优化和超越纯文本基线方面仍存在挑战。

Dec, 2023

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

Flamingo：一种可视化语言模型，用于少样本学习

Flamingo 是一种可视语言模型，具有快速适应新任务的能力，能够仅使用少量注释示例。这种模型通过桥接强大的预训练视觉和语言模型，处理任意交错的视觉和文本数据序列，并无缝地输入图像或视频并进行评估和测试，从而表现出上下文的一步学习能力。

Apr, 2022

利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别

该论文提出了一种面向多种语言特别是对于有限标注数据的低资源语言的强大的视觉语音识别（VSR）方法，通过使用 Whisper 模型，它可以进行语言识别和基于音频的语音识别，从而在没有人工注释的情况下获得与人工注释标签相似的 VSR 性能，并提供了大规模无标注多语言数据库的自动标签。

Sep, 2023

用低语启迪我：使用语音嵌入增强大型语言模型对口述剧本的分析

通过音频 - 语言知识蒸馏框架，将语音数据中的声学和语用信息转移到学生语言模型，从而改进了传统语言模型在分析口述文本任务上的性能。

Nov, 2023

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

DistilWhisper: 通过语言专家高效蒸馏多任务语音模型

DistilWhisper 是一个轻量级模块化的 ASR 框架，通过语言专家和知识蒸馏的方式提高了 Whisper 的性能，同时保留了多任务和多语言预训练模型的鲁棒性，在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。

Nov, 2023

发掘 Web 规模语音模型的潜在能力，实现零样本任务的普适性

本文通过调整 Prompt 的方式，从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手，探究了该模型 Whisper 的应用性能。实验证明，相对于默认 Prompt，本文提出的 Prompt 在零 - shot 任务上的表现提升了 10% 到 45%，并在一些数据集上甚至超越了 SotA 监督模型。此外，实验还揭示了 Whisper 的许多有趣属性，例如其对提示的鲁棒性、对语音口音的偏见，以及在潜在空间中的多语言理解。

May, 2023

Whisper-MCE：用于混合语言更佳性能的 Whisper 模型微调

本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现，同时提出一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。通过将我们的模型与基线模型 whisper-large-v2 进行比较，我们展示了其准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的卓越能力。值得注意的是，在识别 mixed language 的特定任务中，我们的模型超越了其他现有模型。

Oct, 2023