Nov, 2020

COOT:用于视频文本表示学习的协作层次 Transformer

TL;DR本文提出了一种名为 Cooperative hierarchical Transformer (COOT) 的方法,它能够利用不同层次的细节信息和多模态之间的相互作用,同时比同类方法减少了参数数量。