Mar, 2024

神经符号化视频搜索

TL;DR使用视觉语言模型进行语义理解,通过状态机和时间逻辑进行长期演变的事件推理,提高了复杂事件识别的 F1 得分。