Nov, 2023

CLearViD: 视频描述的课程学习

TL;DRCLearViD是一种基于Transformer的视频描述生成模型,利用课程学习方法逐渐暴露模型于更具挑战性的样本和逐步降低网络容量,从而学习到更具鲁棒性和泛化性的特征,并利用Mish激活函数来缓解梯度消失问题。实验证明了该模型在ActivityNet Captions和YouCook2数据集上相对于现有的最先进模型在准确性和多样性指标上取得了显著的改善。