Nov, 2019

时域多元素:多动作视频理解模型的学习与解释

TL;DR介绍了 Multi-Moments in Time dataset,它包含了超过一百万个三秒视频的超过两百万个动作标签,为多动作检测训练和分析模型引入了新的挑战。对于长尾多标签学习,提出了适合的损失函数,并提供了更好的模型可视化和解释方法,表明将 M-MiT 训练的模型迁移到更小的数据集具有很强的鲁棒性。