Apr, 2024

利用时间语境进行视频动作识别

TL;DRTC-CLIP 是一种改进的视觉语言模型,通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。