语音基础模型对听障听众的可懂度预测
通过对多个受监督和自监督 SFMs 进行广泛评估,我们发现,尽管受监督的 SFMs 在语音识别数据上已经进行了预训练(带有标签),但并不总是表现优于自监督的 SFMs;后者在 SLUE 的序列生成任务上往往至少与受监督的 SFMs 表现一样出色,有时甚至更好。对于大多数任务来说,复杂预测头的性能最佳,尽管会增加推理时间。我们还引入了一个开源工具包和性能排行榜 SLUE-PERB,用于这些任务和建模策略。
Jun, 2024
利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示,结合人类记忆的示例驱动型心理模型,预测助听器用户的人类可懂度评级,并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。
Jan, 2024
基于多个声学模型和数据增强方法,本研究针对儿童自动语音识别(ASR)问题提出了一个全面的基准,探索了细调策略、模型大小和数据增强方法之间的关系,并提出了一个稳定的细调方法(PIF)作为正则化。
Jun, 2024
将自我监督语音表示应用于对听力受损用户的清晰度预测中,研究发现自我监督表示作为非侵入性预测模型的输入特征具有竞争力的性能,能够在复杂系统上预测清晰度评估
Jul, 2023
基于已发表论文的研究,本文提出了对迄今为止呈现的架构解决方案和训练策略进行统一观点的基础,并强调它们之间的相似性和差异性,展示了不同的设置和评估方法如何阻碍了每个架构构建块和训练选择的最佳性能解决方案的识别,最后,我们概述了针对该主题的未来工作的建议,旨在更好地理解 SF+LLM 解决方案的优势和劣势。
Feb, 2024
我们建立了语音处理通用性能基准(SUPERB),使用冻结的基础模型和任务专门化的轻量级预测头,证实了基础模型范式在语音处理中的潜力和我们的多任务框架的简单而有效性,具备竞争力的泛化能力。我们还进行了一系列分析,深入了解 SUPERB 和语音基准模型,包括模型内任务之间的信息流动,加权求和基准测试协议的正确性以及基准测试的统计显著性和稳健性。
Apr, 2024
本论文采用自监督预训练方法 BEST-RQ,并使用 JUST Hydra 进行源域和无监督目标域数据的联合微调,将 FM 编码器适配器和解码器微调到目标域,使用少量带标记的域内数据,实现了在大规模 YouTube 和语音搜索任务中既数据又模型参数的高效性,在仅使用 2160 万个带标签的域内数据和 130.8 M 的微调参数的情况下,与另外 3 亿带标签的域内数据从头训练 731.1M 模型的效果相同。
Feb, 2023
本研究提出了 SVSNet + 模型,该模型整合了预训练的 SFMs 模型来改善对说话者声音相似性的评估性能,实验证明使用 WavLM 表征的 SVSNet + 相比基线模型有显著改进,将 WavLM 替换为其他 SFMs 时,SVSNet + 仍优于基线模型且表现出强大的泛化能力。
Jun, 2024
我们提出了一种联合语音与语言模型(SLM),它是一种多任务、多语种、双模态的模型,充分利用了预训练的语音和语言基础模型。SLM 通过将预训练的基础模型冻结,最大限度地保留它们的能力,并只训练一个只包含 1%(156M)基础模型参数的简单适配器,从而在传统任务(如语音识别和语音翻译)上取得了强大的性能,同时还具备了零 - shot 指导的新颖能力,能够完成包括上下文偏置语音识别、对话生成、语音延续和问答等多样化任务。我们的方法表明,预训练的语音和语言模型之间的表征差距可能比人们预期的要小,并可以通过简单的适应机制来弥合。因此,SLM 不仅训练高效,而且继承了不同模态基础模型已经具备的强大能力。
Sep, 2023