Jun, 2023

探索音频在视频字幕中的作用

TL;DR本研究提出了一种音视频框架,利用原始音频信号学习,通过 Modality Balanced Pre-training 优化模型,且采用局部和全局融合机制进行信息交换,以提高视频字幕生成的性能。