Jan, 2023

半参数视频文本生成

TL;DR通过对数据存储库中的视频采用非参数帧检索器进行预处理,将其与查询一起进行聚合,从而有效地表示长时间未修剪的视频的可扩展视频 - 语言建模新视角。在四个视频 - 语言数据集上达到了新的技术水平。