Apr, 2024

通过生成式预训练学习长形式视频首选权

TL;DR通过使用视觉位置如边界框和关键点来表示视频中的关键信息,我们的方法利用生成式预训练技术(GPT)对长时视频进行学习,证明了其在长时视频先验学习中具有巨大潜力。