Nov, 2022

生成场景描述的 V&L 模型中跨模态交互的理解

TL;DR使用 Vision and Language 模型,结合场景和物体描述的数据集,本文分析了其微调的效果,揭示了小量精选数据即可生成不失物体级别描述的场景描述,并讨论与计算和认知科学研究的并行之处。