Feb, 2023

使用 Transformer 进行韵律语音分割(PSST)

TL;DR本文细调了一个预训练的 STT 模型 Whisper,将低频令牌重新用于标注语调单元(IU)边界,精度达到 95.8%,优于以往的方法,无需大规模标记数据或企业级计算资源,并且通过应用一系列滤波器来减小输入信号,发现在 3.2 kHz 级别下的低通滤波器可以提高样本外和分布外语境下的分段性能,我们将该模型作为转录工具并作为进一步改进语调分割的基准线释放。