Feb, 2020

AlignNet: 音频视觉对齐的统一方法

TL;DRAlignNet 是一种使用注意力机制、金字塔处理、双线性变换等原则设计的模型,可实现解决视频和音频偏差不对齐的问题,并使用 Dance50 数据集进行训练和评估,结果表明相较于现有的方法,我们的模型表现得更优秀。