ACLMay, 2023

跨越声学建模的粒度鸿沟

TL;DR为了压缩声学特征并同时保留更丰富的信息,我们提出了逐步向下采样(PDS)的方法,并开发了一种表示融合方法来减少信息损失。可以将声学特征压缩到初始长度的 1/32,同时在语音识别任务上获得更好或相当的性能,并带来 1.20 倍至 1.47 倍的推理加速。我们还在更具挑战性的语音翻译任务训练时取得了竞争结果。