Mar, 2022

基于视觉反馈的自监督语音模型中的词语发现

TL;DR本文提出了一种可视化感知的口语术语探测方法,通过对自注意力头的训练与分析发现,在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力,并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。