Nov, 2019
时域多元素:多动作视频理解模型的学习与解释
Multi-Moments in Time: Learning and Interpreting Models for Multi-Action Video Understanding
Mathew Monfort, Bowen Pan, Kandan Ramakrishnan, Alex Andonian, Barry A McNamara...
TL;DR介绍了 Multi-Moments in Time dataset,它包含了超过一百万个三秒视频的超过两百万个动作标签,为多动作检测训练和分析模型引入了新的挑战。对于长尾多标签学习,提出了适合的损失函数,并提供了更好的模型可视化和解释方法,表明将 M-MiT 训练的模型迁移到更小的数据集具有很强的鲁棒性。