Oct, 2023

3M-TRANSFORMER:用于体现式交替预测的多级多轮多模态 Transformer

TL;DR使用基于 Transformer 的新型多模态架构来预测具有多视角的、同步的交互数据中的轮替情况,在已引入的 EgoCom 数据集上进行实验,与现有的基线和替代基于 Transformer 的方法相比,平均性能显著提升了最高达 14.01%。