Sep, 2023

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

TL;DR在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统,通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块;与以往的研究不同,我们研究了网络在计算预算耗尽时的错误率,并发现它表现出优雅的降级,即使在此情况下系统仍能正常运行;与传统的声源角估计方法不同,我们的网络利用检测到的头部位置学习查询可用的声学数据;我们在一个现实的会议数据集上训练和评估我们的算法,该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。