Jan, 2024

FunnyNet-W:野外视频中的多模态学习有趣时刻

TL;DR通过跨和自注意力模型,FunnyNet-W 使用视频中的视觉、音频和文本数据,预测出有趣的时刻,同时提出了一种无监督方法来获取训练标签。实验结果表明,FunnyNet-W 成功地利用了视觉、听觉和文本线索来识别有趣的时刻,并在各个数据集上创造了有趣时刻检测的新的最佳成果。