BriefGPT.xyz
Ask
alpha
关键词
speaker tracking
搜索结果 - 3
AAAI
带自监督学习的多模态感知注意力网络用于音视说话者追踪
本文提出了一种利用声音和视觉模态进行讲话者跟踪的多模态感知跟踪器(MPT),其中包括使用基于空时全局相干字段(stGCF)的声学地图进行异构信号融合,引入多模态感知注意力网络来导出可靠性和效益的知觉权重,以及使用跨模态自我监督学习方法模拟不
→
PDF
3 years ago
用于多说话者音视频跟踪的变分贝叶斯推断
本文提出了一种基于视听信息融合技术框架的多说话人跟踪系统,利用可变因素推断方法近似求解了连续和离散潜变量的后验联合分布,实现了跟踪对象的平滑轨迹估计和说话状态的判断。实验结果表明该方法在非正式会议中表现出较好的性能。
PDF
6 years ago
将声音与图像结合以确定视频中的发言者
本文提出了一种音视频关联系统,将音频和视觉信号的信息融合,通过对视频中的统计数据的聚合实现面部和声音的有效关联,无需针对此任务的具体训练数据,并利用音频和视觉流中信息的自然相干性,特别适用于跟踪网络视频中的说话人,通过对真实数据集的实验表明
→
PDF
7 years ago
Prev
Next