BriefGPT.xyz
Ask
alpha
关键词
audio-visual approach
搜索结果 - 2
视频中音频 - 视觉讲话者定位对空间音效重现的应用
通过使用多通道音频和视觉模式,本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法,在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性,并解决离屏说话者的问题。
PDF
a month ago
ECCV
VoViT: 基于图论的低延迟音视频语音分离 Transformer
本文提出了一种音频 - 视觉声音分离方案,在两种不同场景(语音和唱歌)中实现了低时延的最新成果。该模型基于两级网络,采用轻量级图卷积网络从面部标记中提取运动线索,然后将视觉和音频特征输入到音频 - 视觉转换器中,为目标源的隔离估计提供相当不
→
PDF
2 years ago
Prev
Next