研究 ASR 基础模型的新兴音频分类能力

Nov, 2023

研究 ASR 基础模型的新兴音频分类能力

Investigating the Emergent Audio Classification Ability of ASR Foundation Models

Rao Ma, Adian Liusie, Mark J. F. Gales, Kate M. Knill

TL;DR使用 Whisper 这个 ASR 基础模型进行无监督音频分类，并通过去偏方法获得显著的性能提升。

Abstract

Text and vision foundation models can perform many tasks in a zero-shot setting, a desirable property that enables these systems to be applied in general and low-resource settings. However, there has been significantly less work on the →

zero-shot asr foundation models audio classification whisper debiasing

发现论文，激发创造

发掘 Web 规模语音模型的潜在能力，实现零样本任务的普适性

本文通过调整 Prompt 的方式，从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手，探究了该模型 Whisper 的应用性能。实验证明，相对于默认 Prompt，本文提出的 Prompt 在零 - shot 任务上的表现提升了 10% 到 45%，并在一些数据集上甚至超越了 SotA 监督模型。此外，实验还揭示了 Whisper 的许多有趣属性，例如其对提示的鲁棒性、对语音口音的偏见，以及在潜在空间中的多语言理解。

May, 2023

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

泛零样本音频到意图分类

利用仅有每个意图几个样本文本句子的泛化零样本音频到意图分类框架，该框架使用只有音频的数据，通过训练有监督的音频到意图分类器和利用神经音频合成器生成音频嵌入，使用余弦相似度对未见过的意图进行泛化零样本分类，并通过多模态训练策略将词汇信息融入音频表征来提高泛化零样本性能。相较于仅使用音频训练，我们的多模态训练方法提高了 SLURP 和内部目标导向对话数据集上未见过的意图的零样本意图分类准确率分别为 2.75％和 18.2％。

Nov, 2023

本文评估了几种基于自监督或弱监督的尖端大型基础模型（包括 SeamlessM4T、SeamlessM4T v2 和 Whisper-large-v3）在三个混合代码语料库上的表现。我们发现自监督模型可以达到接近受监督模型的性能，表明多语言自监督预训练的有效性。我们还观察到这些模型在建模句内代码切换方面仍有改进空间，常犯相似错误并在代码切换任务的性能上表现不理想。此外，我们探索了 Whisper 的几种变体的有效性，并得出结论它们在代码切换场景中仍然有效，鼓励研究类似的自监督模型技术以提升代码切换任务的性能。

Dec, 2023

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022

跨语言迁移学习的语音翻译

利用 Whisper 作为多语言语音模型示例，我们探究了语音编码器产生的话语表征，虽然保留了一些语言敏感信息，但是来自不同语言的单词被映射到相似的语义空间，从 Speech-to-Speech 检索任务中的高召回率可以看出；借助这个共享的嵌入空间，我们证明了在语音翻译中的零 - shot 跨语言转移；当 Whisper 模型仅使用英语到中文翻译数据进行微调时，它在其他语言的输入话语上表现出性能的提升；此外，在低资源语言的实验中，通过利用跨语言表示，Whisper 可以对在预训练过程中未见的语言的话语进行语音翻译。

Jul, 2024

基于中间 ASR 特征和人类记忆模型的面向听障用户的非侵入式语音可懂度预测

利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示，结合人类记忆的示例驱动型心理模型，预测助听器用户的人类可懂度评级，并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。

Jan, 2024

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021

自我监督的语言学习：从零语音资源挑战中的经验教训

通过 Zero Resource Speech Challenge 系列自 2015 年以来的六个版本的总结，讨论了自我监督或无监督机器学习的最新进展，并重点介绍了声学单元发现，口语术语发现，离散重构和口语语言建模四项任务的相关度量标准和基准，促进了模型比较和累积性进展。

Oct, 2022

VL-Taboo：面向属性的零样本视觉 - 语言模型能力分析

本研究分析了基于大规模数据的视觉 - 语言模型的真正零样本能力及其属性基零样本学习能力，评估了现有模型对不同基准测试的性能表现及影响因素。结果表明该模型主要通过识别语言中的类标签实现零样本学习，属性数的变化会显著影响其表现。

Sep, 2022