Oct, 2022

VCSE: 时域视觉语境说话人提取网络

TL;DR本文提出了一种包含视觉和自我学习语境线索的两阶段时域视觉 —— 语境扬声器提取网络 VCSE, 在 LRS3 数据库上表现比其他最先进的基线一致优秀