Dec, 2019

在线音视频会议转录技术进展

TL;DR本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统,该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时,还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法,提供了一个名为 SRD 的会议转录框架,并使用 11 名与会者的会议录音的实验结果表明,连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1%。当有完整的与会者名单时,字词错误率与演讲者归属字词错误率之间的差异仅为 1.0%,表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时,差异略有增加,为 1.6%。