Oct, 2023
3M-TRANSFORMER:用于体现式交替预测的多级多轮多模态 Transformer
3M-TRANSFORMER: A Multi-Stage Multi-Stream Multimodal Transformer for Embodied Turn-Taking Prediction
Mehdi Fatan, Emanuele Mincato, Dimitra Pintzou, Mariella Dimiccoli
TL;DR使用基于 Transformer 的新型多模态架构来预测具有多视角的、同步的交互数据中的轮替情况,在已引入的 EgoCom 数据集上进行实验,与现有的基线和替代基于 Transformer 的方法相比,平均性能显著提升了最高达 14.01%。