Feb, 2022

SHAS:面向端对端语音翻译的接近最优分段方法

TL;DR本文提出了基于 Supervised Hybrid Audio Segmentation (SHAS) 的语音翻译模型,该模型利用了 wav2vec 2.0 的语音表示和分治算法找到最佳的分段点,可以有效地处理长语音和不可用手动分段的情况,并在实验中表现出很高的零样本性能和接近手动分段的翻译质量。