TRILLsson: 通用语音语调语言特征提取

Mar, 2022

TRILLsson: 通用语音语调语言特征提取

TRILLsson: Distilled Universal Paralinguistic Speech Representations

Joel Shor, Subhashini Venugopalan

TL;DR本研究基于知识蒸馏，公开发布了一组语音模型，这些模型在公共数据上进行了精简和训练，大小不到原始模型的 15％，并在 NOSS 基准测试上取得了超过 90% 的准确率。

Abstract

Recent advances in self-supervision have dramatically improved the quality of speech representations. However, deployment of state-of-the-art embedding models on devices has been restricted due to their limited p

self-supervision speech representations paralinguistic speech models knowledge distillation noss benchmark

发现论文，激发创造

知识蒸馏在多任务语音表示学习中的应用

本论文中，我们使用知识蒸馏通过压缩 wav2vec 2.0 和 HuBERT 语音模型约 75% 的参数量，并分别在单任务和多任务框架上进行微调实验来进行全面的性能分析，实验结果表明，在关键词检测和说话人验证任务中，微调经过知识蒸馏的模型只有 0.1% 的准确率和 0.9% 的等误差率下降。

Oct, 2022

使用自监督转换器的通用语音语音语言表示

本研究介绍了一种基于 Conformer 架构的自我监督训练的优秀的全语境表示法，应用于多元语音任务，分析了上下文窗口的大小并证明了小窗口仍能取得接近最优表现。

Oct, 2021

通过提炼韵律和语言情感表达的语音情感识别

EmoDistill 是一个新颖的语音情感识别（SER）框架，利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中，我们的方法仅使用一系列语音信号执行单模态 SER，从而减少计算开销并避免运行时转录和韵律特征提取错误。在 IEMOCAP 基准上的实验证明，我们的方法以相当大的优势胜过其他单模态和多模态技术，并实现了 77.49％的非加权准确率和 78.91％的加权准确率。详细的消融研究展示了我们方法的每个组成部分的影响。

Sep, 2023

将预训练语言模型提炼为多语言自动语音识别模型

本研究提出了一个名为 Distill-L2S 的新方法，将一个已经训练好的跨语言语言模型转移到语音识别模型中，通过该方法在 20 种低资源语言中达到了优越性能。

Jun, 2022

语音情感识别中的语体性表征有多贴切？以一个案例研究为例

我们进行了五个预训练模型的综合比较研究，评估了 TRILLsson 对多种语言的语音情感识别的效果，并表明 TRILLsson 能够有效地捕捉语音数据中的各种语音特征，从而实现更好的语音情感识别性能。

Feb, 2024

Distil-Whisper: 大规模伪标记下的鲁棒知识蒸馏

通过伪标注法，将较大的语音识别模型提炼为 Distil-Whisper 变体，使其在低延迟或资源有限的环境中更快速地执行，同时保持与原模型接近的性能。

Nov, 2023

语音情感：探究模型表达、多任务学习和知识蒸馏

本研究探讨利用预训练的声学模型，将词汇信息融合到声学语音信号中，以改善情感估计，特别是情感维度中的愉悦度估计，并且发现预训练的模型嵌入融合可比标准声学特征基线（Mel 滤波器的能量）产生更好的效果，且经测试可以推广到其他数据集上。

Jul, 2022

基于设备的约束自监督语音表示学习在关键词检测中的应用：知识蒸馏

提出了一种基于知识蒸馏的自监督语音表示学习（S3RL）体系结构，用于在设备上进行关键词检测任务，通过使用双视角交叉相关蒸馏和教师的码本作为学习目标，在设备资源限制内构建自监督模型，对 Alexa 关键词检测任务表现出非凡的性能。

Jul, 2023

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

DistilHuBERT：基于层间蒸馏的 BERT 隐藏单元语音表示学习

本文介绍了 DistilHuBERT，它是一种新的多任务学习框架，可从 HuBERT 模型中提取隐藏表示，节省了大量内存和训练时间成本，并且在十个不同的任务中保留了大多数性能，从而使得个人和设备上的 SSL 模型的预训练成为可能。

Oct, 2021