BriefGPT.xyz
Ask
alpha
关键词
ambiguous sounds
搜索结果 - 1
具有自适应视听关注的视觉感知音频字幕
本文提出了一种基于视觉感知的音频字幕生成方法,将来自视频的视觉信息整合到音频字幕系统中,采用音视频关注机制自适应地整合音频和视觉信息,显著提高了音频字幕系统的性能。
PDF
2 years ago
Prev
Next