ACLJun, 2024

深入了解视频文本模型的运动表示

TL;DR通过引入生成的 GPT-4 运动描述应用于三个行动数据集并在运动描述检索任务上评估几种视频 - 文本模型,本研究探讨了视频与图片的信息性差异,着重关注视频 - 文本模型对于视频中运动的理解以及需要在现有数据集中加入细致动作信息的问题,并证明了利用动作描述提高视频 - 文本模型对于细致动作的理解的方法的有效性。