Nov, 2020
COOT:用于视频文本表示学习的协作层次 Transformer
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning
Simon Ging, Mohammadreza Zolfaghari, Hamed Pirsiavash, Thomas Brox
TL;DR本文提出了一种名为 Cooperative hierarchical Transformer (COOT) 的方法,它能够利用不同层次的细节信息和多模态之间的相互作用,同时比同类方法减少了参数数量。