Aug, 2024

弱监督时序动作定位的概率视觉-语言表示

TL;DR本研究针对弱监督时序动作定位(WTAL)中的任务差异问题,提出了一种新颖的概率嵌入框架,将人类动作知识与视觉-语言预训练(VLP)知识在联合空间中进行对齐。通过引入内部和外部分布对比学习,本研究显著提升了对人类细微动作的捕捉能力,实验证明其在性能上超越了所有现有最先进的方法。