Nov, 2022
生成场景描述的 V&L 模型中跨模态交互的理解
Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions
Michele Cafagna, Kees van Deemter, Albert Gatt
TL;DR使用 Vision and Language 模型,结合场景和物体描述的数据集,本文分析了其微调的效果,揭示了小量精选数据即可生成不失物体级别描述的场景描述,并讨论与计算和认知科学研究的并行之处。