Jul, 2020

野外演讲者日志检测

TL;DR本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中,从而显著减少注释视频所需的时间。通过这种方式,研究人员成功地发布了一个名为 VoxConverse 的大规模分离数据集。