Oct, 2023

HowToCaption: 规模化促使 LLMs 转化视频注释

TL;DR利用大型语言模型从自动语音识别摘要中创建与视频对齐的细致视频描述,以达到大规模教学视频数据训练文本 - 视频模型的目的。这项工作应用于 HowTo100M 数据集的副标题,创建了一个新的大规模数据集 HowToCaption,其结果不仅显著改善了许多不同基准数据集上的文本 - 视频检索性能,还将文本叙述与音频相分离,在文本 - 视频 - 音频任务中提升了性能。