Apr, 2023

从关联到生成:通过无监督的跨模态映射进行纯文本描述

TL;DR本文介绍了一种名为 Knight 的基于 K 最近邻跨模态映射的零样本图像和视频描述生成方法,利用文本无监督训练实现了图像和视频描述的最新零样本表现。