Nov, 2022

优化语义增强以实现视频字幕的频率扩散

TL;DR本文提出了一种新的改进语义增强方法以应对低频词对视频标题生成的限制。通过引入 Frequency-Aware Diffusion (FAD) 模块,以更好地理解低频词汇的语义,改进了标题的生成;设计了 Divergent Semantic Supervisor (DSS) 模块,以进一步强调低频词的语义从而缓解长尾问题。实验证明,该方法优于现有方法,并可获得全面的生成效果。