Dec, 2023

上下文大小对语音预训练的影响:更大并不总是更好

TL;DR调查了自监督学习中使用多少上下文能够实现高质量的预训练声学模型,发现在训练和推理过程中,40ms 的上下文能够达到最佳的音素可辨识性,而太多上下文则会显著降低表示质量,并且这种模式在监督 ASR 中也适用,当预训练表示被用作冻结输入特征时。研究结果指出了当前上游架构设计上可能需要进行的变化以更好地支持各种下游任务。