Nov, 2023

复杂操作动作视频的多句描述

TL;DR提出了一种混合统计和端到端框架来解决视频描述中细节级别、操作行为和层次结构的问题,并且定量结果表明这些方法产生的描述比其他竞争方法更真实。