跨越声学建模的粒度鸿沟

ACLMay, 2023

Bridging the Granularity Gap for Acoustic Modeling

Chen Xu, Yuhao Zhang, Chengbo Jiao, Xiaoqian Liu, Chi Hu...

TL;DR为了压缩声学特征并同时保留更丰富的信息，我们提出了逐步向下采样（PDS）的方法，并开发了一种表示融合方法来减少信息损失。可以将声学特征压缩到初始长度的 1/32，同时在语音识别任务上获得更好或相当的性能，并带来 1.20 倍至 1.47 倍的推理加速。我们还在更具挑战性的语音翻译任务训练时取得了竞争结果。

Abstract

While transformer has become the de-facto standard for speech, modeling upon the fine-grained frame-level features remains an open challenge of capturing long-distance dependencies and distributing the attention weights. We propose \textit{→

transformer speech recognition acoustic features representation fusion progressive down-sampling

发现论文，激发创造

Speechformer：减少直接语音翻译中的信息损失

提出了 Speechformer 的架构，该架构通过减少注意层中的内存使用，避免了初始的失真压缩，并根据更具信息的语言标准仅在较高级别上聚合信息，该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。

Sep, 2021

CPSP: 从音素监督中学习语音概念

我们提出了一种名为对比音素 - 语音预训练（CPSP）的方法，通过对比学习将音素和语音连接到联合多模态空间，并在帧级别学习如何连接音素和语音，从而实现了最小监督的文本到语音（TTS）、语音转换（VC）和自动语音识别（ASR）任务。

Sep, 2023

DPATD: 双阶段音频变压器降噪

通过利用较小的音频块作为输入，我们提出了一种名为 DPATD 的双相音频变压器模型，该模型组织了一个深层结构的变压器层以学习用于降噪的清洁音频序列。广泛的实验证明我们的模型优于现有技术方法。

Oct, 2023

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

通过离散语音单元预训练的紧凑语音翻译模型

使用自监督学习作为模型初始化在语音翻译中取得较好结果已经很常见，但也对设备上的部署造成了大量的内存开销。本文通过在离散语音单元上对自监督学习模型进行预训练，从而在有限的语音翻译数据上微调初始化的新模型，并利用离散语音单元预训练来凝结自监督学习模型的知识，从而使得最终模型更加紧凑。我们的方法相比于将离散语音单元用作模型输入，具有短推理流程和对（离散语音单元）分词具有鲁棒性等多个优点。与自动语音识别的预训练相比，它不需要转录，因此适用于资源有限的环境。在 CoVoST-2 X-En 数据集上的评估结果显示，我们的方法比直接微调自监督学习模型的语音翻译模型具有更高的 BLEU 得分（提升 0.5），且模型大小仅为其一半，并且与自动语音识别的预训练方法相媲美。

Feb, 2024

面向单说者神经文本转语音的细粒度鲁棒性韵律转移

本文提出一种神经文本转语音系统，通过使用变分自动编码器并在音标级别上聚合韵律特征，实现了从一个说话者到另一个说话者的精细韵律转移，并且解决了参考信号文本缺失的问题。主要关键字为 “神经文本转语音系统”、“韵律转移”、“变分自动编码器”、“音素级时间戳” 和 “序列到序列”。

Jul, 2019

动态隐变量感知器实现高效语音翻译

该研究提出了一种使用感知器编码器和动态潜在访问训练的语音到文本转换技术，这种技术在 MuST-C 数据集上的三种语言中可以与 Transformer 基线模型的性能相匹配，并且可以在推理过程中灵活部署，适应多种计算预算，而不会导致显著降低翻译质量。

Oct, 2022

AdaPTwin：基于 Transformers 的产品双胞胎的低成本自适应压缩

在资源受限的环境中，我们提出一种名为 AdaPTwin 的低秩自适应压缩技术，它可以压缩转换器注意层中的产品相关权重矩阵对，以降低大型转换器模型的计算和存储开销，并实现对新说话人和声学环境的泛化性能。这种压缩技术只需 8 小时的语音数据进行微调，时间不到 20 分钟，与其他压缩方法相比成本极低，并且在压缩 Whisper 和 Distil-Whisper 模型时，词错误率仅增加不到 2%。

Jun, 2024

高效自动语音识别的精准结构化剪枝

本论文提出了一种新的压缩策略，利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本，同时保持高识别性能。该方法优于所有剪枝基线，在 LibriSpeech 基准测试中实现了 50％的模型大小减少和 28％的推理成本减少，同时最小化了性能损失。

May, 2023

由粗到细：音频谱图变压器的高效训练

通过连接粗到细的想法，将变压器模型应用于低分辨率数据进行优化训练，然后在课程学习策略下，使用高分辨率数据进行微调，实验结果表明，这种 AST 的训练机制导致性能提升，收敛速度更快，需要的计算资源和时间更少。

Jan, 2024