IJCAIMay, 2022

多尺度采样的分层多级网络用于视频问答

TL;DR本研究提出了一种新的多级分层网络(MHN),结合多重时间尺度和深度学习模型的多层次处理能力,通过 Multiscale Sampling 实现逐层交互式的表示学习,从而实现视频问题回答中的视觉推理。