May, 2023

一段视频价值4096个令牌:通过零-shot方法口头描述视频以理解其含义

TL;DR通过将视频转化为自然语言描述,本文提出一种方法来解决缺少训练集的多媒体理解问题,并且在视频理解任务中发挥了显著的优势,同时还公开了第一个数据集,用于计算社会科学中的说服策略识别。