跨越声学建模的粒度鸿沟
提出了 Speechformer 的架构,该架构通过减少注意层中的内存使用,避免了初始的失真压缩,并根据更具信息的语言标准仅在较高级别上聚合信息,该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。
Sep, 2021
我们提出了一种名为对比音素 - 语音预训练(CPSP)的方法,通过对比学习将音素和语音连接到联合多模态空间,并在帧级别学习如何连接音素和语音,从而实现了最小监督的文本到语音(TTS)、语音转换(VC)和自动语音识别(ASR)任务。
Sep, 2023
通过利用较小的音频块作为输入,我们提出了一种名为 DPATD 的双相音频变压器模型,该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。
Oct, 2023
本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法,成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构,实验结果表明,我们能够通过将数字精度减少到 8 位定点精度,将全精度模型的参数数量减小并将模型进一步压缩 4 倍,同时维持模型高精度。
Nov, 2019
使用自监督学习作为模型初始化在语音翻译中取得较好结果已经很常见,但也对设备上的部署造成了大量的内存开销。本文通过在离散语音单元上对自监督学习模型进行预训练,从而在有限的语音翻译数据上微调初始化的新模型,并利用离散语音单元预训练来凝结自监督学习模型的知识,从而使得最终模型更加紧凑。我们的方法相比于将离散语音单元用作模型输入,具有短推理流程和对(离散语音单元)分词具有鲁棒性等多个优点。与自动语音识别的预训练相比,它不需要转录,因此适用于资源有限的环境。在 CoVoST-2 X-En 数据集上的评估结果显示,我们的方法比直接微调自监督学习模型的语音翻译模型具有更高的 BLEU 得分(提升 0.5),且模型大小仅为其一半,并且与自动语音识别的预训练方法相媲美。
Feb, 2024
本文提出一种神经文本转语音系统,通过使用变分自动编码器并在音标级别上聚合韵律特征,实现了从一个说话者到另一个说话者的精细韵律转移,并且解决了参考信号文本缺失的问题。主要关键字为 “神经文本转语音系统”、“韵律转移”、“变分自动编码器”、“音素级时间戳” 和 “序列到序列”。
Jul, 2019
该研究提出了一种使用感知器编码器和动态潜在访问训练的语音到文本转换技术,这种技术在 MuST-C 数据集上的三种语言中可以与 Transformer 基线模型的性能相匹配,并且可以在推理过程中灵活部署,适应多种计算预算,而不会导致显著降低翻译质量。
Oct, 2022
在资源受限的环境中,我们提出一种名为 AdaPTwin 的低秩自适应压缩技术,它可以压缩转换器注意层中的产品相关权重矩阵对,以降低大型转换器模型的计算和存储开销,并实现对新说话人和声学环境的泛化性能。这种压缩技术只需 8 小时的语音数据进行微调,时间不到 20 分钟,与其他压缩方法相比成本极低,并且在压缩 Whisper 和 Distil-Whisper 模型时,词错误率仅增加不到 2%。
Jun, 2024
本论文提出了一种新的压缩策略,利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本,同时保持高识别性能。该方法优于所有剪枝基线,在 LibriSpeech 基准测试中实现了 50%的模型大小减少和 28%的推理成本减少,同时最小化了性能损失。
May, 2023
通过连接粗到细的想法,将变压器模型应用于低分辨率数据进行优化训练,然后在课程学习策略下,使用高分辨率数据进行微调,实验结果表明,这种 AST 的训练机制导致性能提升,收敛速度更快,需要的计算资源和时间更少。
Jan, 2024