Jun, 2023

CVPR'2023 AQTC 挑战赛第一名解决方案:基于功能交互为中心的时空视觉语言对齐方法

TL;DR本研究提出了结合预训练的视觉-语言和视频-语言模型的方法,以及新颖的手-物-交互聚合模块,用于解决 AQTC 中视频信号与语言信号的时空对齐,且取得了 CVPR’2023 AQTC Challenge 第一名的高分表现。