Nov, 2022

走向真实场景的端到端演讲者分离

TL;DR本文提出了一种吸引子模型的端到端系统,通过训练模拟数据集来适应于野外含有更多发言者的情况,并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的,但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频有关的基线模型的破纪录成果,将分离误差绝对值减少了 23.3%。