Dec, 2023

生成用于开放词汇视频动作识别的动作条件提示

TL;DR通过创新地将视频模型与大型语言模型相结合,本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识,从而在开放词汇视频动作识别中实现了新的最佳性能,并具有优越的可解释性。