Mar, 2016

跨模态监督学习视频中的活动发言者检测

TL;DR本文利用音频监督视频中活跃讲话者检测的学习,通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类,学习人特定的模型以及在线适应性的改进,利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习,不需要监督,将知识从一种模式传递到另一种模式,建立了自学习活跃讲话者检测系统。