Dec, 2023
利用视觉监督进行基于阵列的主动说话人检测和定位
Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization
Davide Berghi, Philip J. B. Jackson
TL;DR通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络(CRNN),可以独立于视觉模态进行同时水平活动说话者检测和定位(ASDL),超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。