Nov, 2023

OST: 优化时空描述符提升通用视频识别中的文本知识

TL;DR通过将大型语言模型应用于视频领域,进行语义空间的优化,从而改善图像 - 语言模型在视频数据上的性能限制,并提高视频识别的准确性。