Jun, 2019

使用对比双向变换器学习视频表示

TL;DR本文提出了一种自监督学习方法,用于视频特征,与现有方法相比在下游任务中表现显著提高,通过将文本序列的 BERT 模型扩展到实值特征向量序列的情况,以噪声对比估计取代 softma 损失函数,同时展示了如何从可视特征序列和 ASR 派生的词序列中学习表示,并且表明这样的跨模态训练可以进一步提高性能。