Nov, 2023
OST: 优化时空描述符提升通用视频识别中的文本知识
OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition
Tongjia Chen, Hongshan Yu, Zhengeng Yang, Zechuan Li, Wei Sun...
TL;DR通过将大型语言模型应用于视频领域,进行语义空间的优化,从而改善图像 - 语言模型在视频数据上的性能限制,并提高视频识别的准确性。