Perceiver-Prompt: 強調可變的語者適應，用於中文失調語音識別

Jun, 2024

Perceiver-Prompt: 強調可變的語者適應，用於中文失調語音識別

Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition

Yicong Jiang, Tianzi Wang, Xurong Xie, Juan Liu, Wei Sun...

TL;DR通过引入 Perceiver-Prompt 方法，利用 P-Tuning 对 Whisper 大规模模型进行微调，并通过可训练的 Perceiver 从可变长度输入中生成固定长度的说话人提示，以提高对中国发音障碍语音的模型识别性能。我们的实验结果表明，Perceiver-Prompt 在中国发音障碍语音数据集中获得了持续的识别性能改善，CER 相对减少高达 13.04%。

Abstract

disordered speech recognition profound implications for improving the quality of life for individuals afflicted with, for example, dysarthria. Dysarthric speech recognition encounters challenges including limited

disordered speech recognition dysarthria speech dataset perceiver-prompt whisper

发现论文，激发创造

PI-Whisper：面向多样化和不断演化的说话人特征的自适应增量式语音识别框架

通过边缘自动语音识别（ASR）技术，本研究提出了 PI-Whisper 框架，以增强 ASR 的适应性、实现增量式处理和促进多元化使用者群体的公平性和公正性，并在状态 - of-the-art 的准确性下降为主的情况下，提高 13.7％的识别准确率。

Jun, 2024

香港中文大学口吃言语识别系统的最新进展

本文介绍了中国香港中文大学对自动语音识别技术中有关于不正常发音语音的识别问题展开的最新研究成果，利用了新型建模技术和 Bayesian model adaptation 等方法，最终取得了乌阿里语（UASpeech）失语症语音库上最低的 25.21% 字误率（WER），并在多方面相对于 2018 年的同类系统均有较大提升

Jan, 2022

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

通过提示调优扩展 Whisper 以实现面向目标说话者的 ASR

本研究提出了一种针对目标讲话者的自动语音识别 (ASR) 方法，利用参数高效微调的方法扩展了大规模单讲话者 ASR 模型 Whisper，实验结果显示，该方法可以在只需要任务特定模型参数约 1% 的情况下，达到与先进的完全微调方法相当的性能，同时保留了原始 Whisper 的特征，使生成的转录自然且信息丰富。

Dec, 2023

探究无序语音识别数据增强技术

本文研究了一组用于混乱语音识别的数据增强技术，包括声道长度扰动（VTLP）、节奏扰动和速度扰动，并利用正常和混乱语音进行增强处理。通过基于学习隐藏单元贡献（LHUC）的说话者自适应训练对原始和增强数据中的受损说话者之间的变异性进行建模。使用基于速度扰动的最佳增强方法构建的最终说话者自适应系统相对于没有数据增强的基线系统减少了 2.92％绝对（9.3％相对）的词错误率（WER），并在包含 16 位 Dysarthria 患者的测试集上获得了 26.37％的整体 WER。

Jan, 2022

关键词引导的自动语音识别适应

通过上下文偏差对 Whisper 模型进行改进，提出了一种优化行话词识别的新方法。采用关键词检测模型，利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器，并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中，与 Whisper 相比，平均词错误率提高了 5.1%。

Jun, 2024

深究 Whisper 的提示理解能力：提示是否真正起作用？

本研究探讨了高性能语音识别模型 Whisper 与提示信息之间的交互作用，结果意外发现 Whisper 可能并未完全理解文字提示。此外，我们发现即使更加严格地遵循文字提示中的主题信息，也不能保证性能提升。英文提示通常在两种语言的数据集上表现优于中文提示，这很可能是由于这些语言的训练数据分布存在差异所致。与此相反，我们发现 Whisper 能够意识到语言令牌中误导性信息，通过有效地忽略错误的语言令牌并专注于正确的令牌。总结起来，本研究提出了有关 Whisper 提示理解能力的问题，并鼓励进一步研究。

Jun, 2024

使用光谱时域深度特征进行言语适应，在语音识别中应用于发音困难和老年人

该研究提出了一种基于频谱分解的深度特征提取方法，用于通过个性化的演讲者自适应技术提高自动语音识别系统对肌肉发音障碍者和老年人的识别准确率。通过在四项任务中的实验表明，在应用该技术后，识别准确率有了显著的提高。

Feb, 2022

发掘 Web 规模语音模型的潜在能力，实现零样本任务的普适性

本文通过调整 Prompt 的方式，从三个任务 (音视频语音识别、混合语音识别、语音翻译) 入手，探究了该模型 Whisper 的应用性能。实验证明，相对于默认 Prompt，本文提出的 Prompt 在零 - shot 任务上的表现提升了 10% 到 45%，并在一些数据集上甚至超越了 SotA 监督模型。此外，实验还揭示了 Whisper 的许多有趣属性，例如其对提示的鲁棒性、对语音口音的偏见，以及在潜在空间中的多语言理解。

May, 2023

Whisper 能否进行基于语音的上下文学习

通过以语音为基础的上下文学习方法，本研究调查了由 OpenAI 发布的 Whisper 自动语音识别（ASR）模型的上下文学习能力。在应用于孤立词 ASR 时，实验结果表明使用任意大小的 Whisper 模型在两种方言中能够显著减少词错误率（WER），平均降低率为 32.3%。可应用于进一步提高上下文学习效率的基于 k 最近邻的示例选择技术能将平均相对 WER 减少率提高至 36.4%。研究还对发音变化和方言特定的词汇细微差别的适应性进行了详细的定量分析。

Sep, 2023