May, 2024

交互意图预测的双向渐进变形器

TL;DR通过引入一种新型的双向递进式 Transformer 模型 (BOT),该论文利用手部轨迹和交互热点之间的深层内在连接,通过空间 - 时间重构模块最大程度地利用来自前一观察帧的空间信息,通过双向递进式增强模块相互改进手部轨迹和交互热点的预测,以降低错误积累,并通过引入轨迹随机单元和 C-VAE 分别为轨迹和交互热点引入适当的不确定性。该方法在 Epic-Kitchens-100、EGO4D 和 EGTEA Gaze + 三个基准数据集上取得了最先进的结果,展现在复杂场景中的卓越表现。