Jan, 2024

基于 Transformer 的高时序维度解码的视频显著性预测

TL;DR基于变压器的高时间维度解码网络(THTD-Net)是一种用于视频显著性预测的策略,通过对时态特征进行聚合,从而在常见基准测试中展现出与多分支和过于复杂模型相当的性能。