Oct, 2023

关于使用视觉语言模型进行视觉情感分析的研究:针对CLIP的一项研究

TL;DR本研究在探索如何利用CLIP嵌入空间进行视觉情感分析,通过在WEBEmo基准测试上训练CLIP-E模型和进行交叉数据集评估,发现CLIP-E方法在细粒度分类和一些未经训练数据集上的泛化能力均优于现有模型,这引发了关于设计新基准和评估视觉情感分析的问题,并讨论了是否应该继续设计专门的深度学习模型或者更好地利用CLIP等大型视觉-语言模型的知识来解决这一任务。