通过提示调优扩展 Whisper 以实现面向目标说话者的 ASR

Dec, 2023

通过提示调优扩展 Whisper 以实现面向目标说话者的 ASR

Extending Whisper with prompt tuning to target-speaker ASR

Hao Ma, Zhiyuan Peng, Mingjie Shao, Jing Li, Ju Liu

TL;DR本研究提出了一种针对目标讲话者的自动语音识别 (ASR) 方法，利用参数高效微调的方法扩展了大规模单讲话者 ASR 模型 Whisper，实验结果显示，该方法可以在只需要任务特定模型参数约 1% 的情况下，达到与先进的完全微调方法相当的性能，同时保留了原始 Whisper 的特征，使生成的转录自然且信息丰富。

Abstract

Target-speaker automatic speech recognition (ASR) aims to transcribe the desired speech of a target speaker from multi-talker overlapped utterances. Most of the existing target-speaker asr (TS-ASR) methods involv

target-speaker asr automatic speech recognition prompt tuning whisper parameter-efficient fine-tuning

发现论文，激发创造

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

发掘 Web 规模语音模型的潜在能力，实现零样本任务的普适性

本文通过调整 Prompt 的方式，从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手，探究了该模型 Whisper 的应用性能。实验证明，相对于默认 Prompt，本文提出的 Prompt 在零 - shot 任务上的表现提升了 10% 到 45%，并在一些数据集上甚至超越了 SotA 监督模型。此外，实验还揭示了 Whisper 的许多有趣属性，例如其对提示的鲁棒性、对语音口音的偏见，以及在潜在空间中的多语言理解。

May, 2023

关键词引导的自动语音识别适应

通过上下文偏差对 Whisper 模型进行改进，提出了一种优化行话词识别的新方法。采用关键词检测模型，利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器，并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中，与 Whisper 相比，平均词错误率提高了 5.1%。

Jun, 2024

PI-Whisper：面向多样化和不断演化的说话人特征的自适应增量式语音识别框架

通过边缘自动语音识别（ASR）技术，本研究提出了 PI-Whisper 框架，以增强 ASR 的适应性、实现增量式处理和促进多元化使用者群体的公平性和公正性，并在状态 - of-the-art 的准确性下降为主的情况下，提高 13.7％的识别准确率。

Jun, 2024

适应童声识别的 Whisper 模型

我们的研究旨在探索能否将已存在的多语种 ASR 模型，如 Whisper，适应于儿童语音以提高儿童 ASR 性能，并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较，结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能，而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。

Jul, 2023

Transsion TSUP 的语音识别系统用于 ASRU 2023 MADASR 挑战

该研究提出了一种语音识别系统，专门用于适应资源有限的印度语言，采用 ASR 模型和 KenLM 语言模型，取得了较低的错误率。

Jul, 2023

DistilWhisper: 通过语言专家高效蒸馏多任务语音模型

DistilWhisper 是一个轻量级模块化的 ASR 框架，通过语言专家和知识蒸馏的方式提高了 Whisper 的性能，同时保留了多任务和多语言预训练模型的鲁棒性，在目标语言中提高了 ASR 性能而仅引入了可忽略的参数开销。

Nov, 2023

将 Whisper 转化为实时转录系统

Whisper-Streaming 是基于 Whisper 的实时语音转录和翻译模型实现，使用本地协议和自适应延迟策略，能够在多语言会议的实时转录服务中展示高品质和 3.3 秒延迟。

Jul, 2023

零样本领域敏感的语音识别与提示条件优化微调

我们提出了一种方法，通过在给定的文本提示上条件生成，利用文本域信息创建领域敏感的语音识别模型。我们通过对预训练的端到端模型（Whisper）进行微调，从示范中学习文本示例，展示了这种能力可以推广到不同领域甚至不同的提示上下文，我们的模型在来自各种领域的未见数据集上的词误差率（WER）降低了最多 33％，如医疗对话、空中交通管制通信和金融会议。考虑到音频 - 文本配对数据的有限可用性，我们进一步将我们的方法扩展到纯文本微调，以实现领域敏感性和领域适应性。我们证明了我们的纯文本微调模型也可以关注各种提示上下文，该模型在医疗对话数据集上的词误差率降低了最多 29％。

Jul, 2023

Perceiver-Prompt: 強調可變的語者適應，用於中文失調語音識別

通过引入 Perceiver-Prompt 方法，利用 P-Tuning 对 Whisper 大规模模型进行微调，并通过可训练的 Perceiver 从可变长度输入中生成固定长度的说话人提示，以提高对中国发音障碍语音的模型识别性能。我们的实验结果表明，Perceiver-Prompt 在中国发音障碍语音数据集中获得了持续的识别性能改善，CER 相对减少高达 13.04%。

Jun, 2024