Jul, 2024

AVCap: 借助音频-视觉特征作为文本令牌进行字幕生成

TL;DR最近几年,表征学习和语言模型的进展推动了自动字幕(AC)技术的发展,使得生成人类级别的描述成为可能。利用这些进展,我们提出了AVCap,一种音频视觉字幕框架,是一种简单但功能强大的基准方法,适用于音频视觉字幕。AVCap通过将音频视觉特征作为文本标记来进行设计,这不仅在性能上有很多优势,也在模型的可扩展性和可伸缩性方面有所表现。AVCap围绕着三个关键维度进行设计:最佳音频视觉编码器架构的探索、根据生成文本的特征调整预训练模型的自适应性,以及调查融合模态在字幕生成中的有效性。我们的方法在所有指标上均优于现有的音频视觉字幕方法,相关代码可在此https URL中获得。