May, 2023

探索图像字幕中的基础问题

TL;DR本文从计算认知语言学的角度探讨了多模态语义表示中的基础问题,注释和分析了五个感知属性:可操作性、感知显著性、物体数量、凝视引导和生态学生态位关联。我们对来自 Flickr30k 数据集的选定图像进行了探究性分析和统计建模,发现了在构建过程中,观看者将情境意义和可操作性与多模态语义统合到一起,而这些因素被巩固为包含视觉和文本元素的图像文字数据集中的影像字幕。本研究显示情境意义和可操作性基础对于理解系统生成适当回应至关重要,并有潜力推动人类对不同情境下的构造的理解。