May, 2023

基于视频内部和交叉信息最大化的小样本动作识别

TL;DR提出了一个新的框架 Video Information Maximization(VIM),用于 few-shot video action recognition,其中包括自适应的空间 - 时间视频采样器和时空动作对齐模型,以最大化视频信息的内在和互视频信息,并通过基于互信息度量的其他损失项来达到这些目标。