ACLAug, 2023

多单帽编码:用于零 - shot 多语言视觉字幕的自动编码提示

TL;DR多场景和多语言的视觉描述生成中,我们提出了一种简单而有效的零样本方法 MultiCapCLIP,它可以在不需要标注视觉 - 描述对的情况下,为不同的场景和语言生成视觉描述,并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。