语音基础模型对听障听众的可懂度预测

Jan, 2024

语音基础模型对听障听众的可懂度预测

Speech foundation models on intelligibility prediction for hearing-impaired listeners

Santiago Cuervo, Ricard Marxer

TL;DR基于结冰的语音基础模型提供了在语音感知领域中感兴趣的应用的系统评估，涉及语音清晰度预测等任务。

Abstract

speech foundation models (SFMs) have been benchmarked on many speech processing tasks, often achieving state-of-the-art performance with minimal adaptation. However, the SFM paradigm has been significantly less explored for applications of interest to the →

speech foundation models speech perception intelligibility prediction clarity prediction challenge 2 cpc2

发现论文，激发创造

关于语音基础模型在口语语言理解中的评估

通过对多个受监督和自监督 SFMs 进行广泛评估，我们发现，尽管受监督的 SFMs 在语音识别数据上已经进行了预训练（带有标签），但并不总是表现优于自监督的 SFMs；后者在 SLUE 的序列生成任务上往往至少与受监督的 SFMs 表现一样出色，有时甚至更好。对于大多数任务来说，复杂预测头的性能最佳，尽管会增加推理时间。我们还引入了一个开源工具包和性能排行榜 SLUE-PERB，用于这些任务和建模策略。

Jun, 2024

基于中间 ASR 特征和人类记忆模型的面向听障用户的非侵入式语音可懂度预测

利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示，结合人类记忆的示例驱动型心理模型，预测助听器用户的人类可懂度评级，并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。

Jan, 2024

用受监督和自监督的语音基础模型对儿童 ASR 进行基准测试

基于多个声学模型和数据增强方法，本研究针对儿童自动语音识别（ASR）问题提出了一个全面的基准，探索了细调策略、模型大小和数据增强方法之间的关系，并提出了一个稳定的细调方法（PIF）作为正则化。

Jun, 2024

自我监督语音表示下的非侵入式听障人士智能可懂度预测

将自我监督语音表示应用于对听力受损用户的清晰度预测中，研究发现自我监督表示作为非侵入性预测模型的输入特征具有竞争力的性能，能够在复杂系统上预测清晰度评估

Jul, 2023

使用语音基础模型和大型语言模型的语音翻译：现有的和遗漏的是什么？

基于已发表论文的研究，本文提出了对迄今为止呈现的架构解决方案和训练策略进行统一观点的基础，并强调它们之间的相似性和差异性，展示了不同的设置和评估方法如何阻碍了每个架构构建块和训练选择的最佳性能解决方案的识别，最后，我们概述了针对该主题的未来工作的建议，旨在更好地理解 SF+LLM 解决方案的优势和劣势。

Feb, 2024

一个大规模评估的语音基础模型

我们建立了语音处理通用性能基准（SUPERB），使用冻结的基础模型和任务专门化的轻量级预测头，证实了基础模型范式在语音处理中的潜力和我们的多任务框架的简单而有效性，具备竞争力的泛化能力。我们还进行了一系列分析，深入了解 SUPERB 和语音基准模型，包括模型内任务之间的信息流动，加权求和基准测试协议的正确性以及基准测试的统计显著性和稳健性。

Apr, 2024

语音基础模型的高效领域自适应

本论文采用自监督预训练方法 BEST-RQ，并使用 JUST Hydra 进行源域和无监督目标域数据的联合微调，将 FM 编码器适配器和解码器微调到目标域，使用少量带标记的域内数据，实现了在大规模 YouTube 和语音搜索任务中既数据又模型参数的高效性，在仅使用 2160 万个带标签的域内数据和 130.8 M 的微调参数的情况下，与另外 3 亿带标签的域内数据从头训练 731.1M 模型的效果相同。

Feb, 2023

SVSNet +：使用语音基础模型的表示增强说话人声音相似性评估模型

本研究提出了 SVSNet + 模型，该模型整合了预训练的 SFMs 模型来改善对说话者声音相似性的评估性能，实验证明使用 WavLM 表征的 SVSNet + 相比基线模型有显著改进，将 WavLM 替换为其他 SFMs 时，SVSNet + 仍优于基线模型且表现出强大的泛化能力。

Jun, 2024

基于 DNN 性能度量的语音可懂度预测

基于深度神经网络和语音识别技术的语音理解模型，可高度精确地模拟听取语音信息的相关属性，不需要干净的语音参考或单词标签。

Mar, 2022

SLM：填补语音与文本基础模型之间的差距

我们提出了一种联合语音与语言模型（SLM），它是一种多任务、多语种、双模态的模型，充分利用了预训练的语音和语言基础模型。SLM 通过将预训练的基础模型冻结，最大限度地保留它们的能力，并只训练一个只包含 1％（156M）基础模型参数的简单适配器，从而在传统任务（如语音识别和语音翻译）上取得了强大的性能，同时还具备了零 - shot 指导的新颖能力，能够完成包括上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。我们的方法表明，预训练的语音和语言模型之间的表征差距可能比人们预期的要小，并可以通过简单的适应机制来弥合。因此，SLM 不仅训练高效，而且继承了不同模态基础模型已经具备的强大能力。

Sep, 2023