BriefGPT.xyz
Ask
alpha
关键词
audiovisual features
搜索结果 - 2
关于音视觉语音识别对缺失视频的鲁棒性
通过引入一个可以准确且可测试地评估鲁棒性的框架,我们对常见的多模态语音识别架构在各种噪声条件和测试套件中的鲁棒性进行了系统的实证研究,并展示了一种基于级联的与架构无关的解决方案,可以在存在缺失视频的情况下持续实现鲁棒性。
PDF
7 months ago
ECCV
学习长期时空图以进行活跃说话者检测
本文提出了 SPELL,一种新的空间时序图学习框架,通过对每个视频帧中的人员建立节点、建立连接来将复杂任务如活跃扬声器检测转化为节点分类任务,实现了对所有节点的长时间上下文推理,显式地利用了空间和时间结构,明显提高了检测性能,且所需的计算和
→
PDF
2 years ago
Prev
Next