May, 2023

可视化转换叙述

TL;DR本文提出了一种新的视觉推理任务:Visual Transformation Telling (VTT),并设计了一种基于 VTT 的机器学习模型 TTNet,该模型使用 CrossTask 和 COIN 等视频数据集进行训练与测试并在具有表现力和泛化性方面优于其他模型。