May, 2023

VAST: 视听字幕文本全模态基础模型与数据集

TL;DR本文利用自动生成的大规模全模态视频字幕数据集VAST-27M来探索多模态视频轨道(包括视觉、音频和字幕)与文本之间的联系,训练出了一种全模态视频-文本初始模型VAST,该模型可以感知和处理视频中的多种模式,并且在各种跨模态基准测试中获得了22项新的最先进结果。