Oct, 2022

具有自适应视听关注的视觉感知音频字幕

TL;DR本文提出了一种基于视觉感知的音频字幕生成方法,将来自视频的视觉信息整合到音频字幕系统中,采用音视频关注机制自适应地整合音频和视觉信息,显著提高了音频字幕系统的性能。