Oct, 2020

BiST: 视频对话的双向时空推理

TL;DR提出了一种基于文本提示的高分辨率视频查询的视觉-语言神经框架,名为Bi-directional Spatio-Temporal Learning(BiST)。结果表明,BiST在视频段落检索(AVSD)基准测试中取得了有竞争力的性能并产生了合理的响应。另外,在 TGIF-QA 基准测试中,BiST模型比先前的方法表现更好。