Jan, 2024

观看、聆听和识别:基于字符的音频视觉字幕

TL;DR通过自动化、音频视觉的方法,本研究提出了一种生成具有精确语音时间戳和角色标识的对话全文本的字幕的方法,无需面部检测或追踪,旨在提高现代流媒体服务中大量视频的可访问性。