使用 Conformer 进行连续语音分离
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明,该架构相比于 Conformer 速度更快,性能更好,且包含更少的参数。
Aug, 2021
语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器(conformers)在许多语音处理任务中表现良好,但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络(TasNets)。一些成功的模型利用了双路径(DP)网络,这些网络顺序处理本地和全局信息。时域 conformers(TD-Conformers)是 DP 方法的一种类似方式,它们也顺序处理本地和全局上下文,但时间复杂性函数不同。结果表明,在现实中较短的信号长度下,控制特征维度时 conformers 更有效。提出了子采样层以进一步提高计算效率。最佳的 TD-Conformer 在 WHAMR 和 WSJ0-2Mix 基准测试上分别实现了 14.6 dB 和 21.2 dB 的 SISDR 改进。
Oct, 2023
该研究通过使用 Conformer 和 Cross-Modal Relative Attention (CMRA) 来进行连续手语识别,利用 Regressional Feature Extraction 进行预训练,证明了这些方法在 PHOENIX-2014 和 PHOENIX-2014T 两个基准数据集上取得了最好的成果。
May, 2024
本文介绍了一种名为 HyperConformer 的语音识别结构,它通过引入高效的 HyperMixer 机制,实现了对于长输入序列较为经济的全局交互建模,并在可获得的训练数据限制下达到与或高于传统结构 Conformer 相似的识别表现。
May, 2023
本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer),可以进行端到端的训练。在语音识别方面取得了具有突破性的进展,实现了最先进效果。
Feb, 2021
本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题,并在 CHiME-4 语料库的单声道 ASR 任务中经过测试,其使用 utterance-wise 归一化和说话人自适应的方式,相比经典的 wide residual 双向长短时记忆网络,减小了 18.3% 的模型大小,训练时间减少了 79.6%且相对误差率比 WRBN 低 8.4%。
Mar, 2022
通过重新审视 Conformer 架构的设计选择,我们提出了 Squeezeformer 模型,展示其在同一训练方案下一致优于当前最先进的 ASR 模型,取得了 7.5%,6.5%和 6.0%的字错率(WER)结果,比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1%,1.4%和 0.6%。
Jun, 2022
本文介绍了一种基于 Transformers、无 RNN 结构的深度神经网络,即 SepFormer,并运用多尺度方法使其实现短时和长时依赖性的学习,从而在语音分离任务中取得了最优结果,并具有较高的计算速度和较小的内存占用。
Oct, 2020