Feb, 2020

自监督学习用于音视频发言人分离

TL;DR提出自监督的音视频同步学习方法,通过引入动态三元组损失和多项式损失函数来解决说话人分离问题,结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率,并且介绍了一个新的大规模中文音视频语料库。