MMSep, 2023

朝向视觉分类学的拓展

TL;DR本文提出了 “视觉分类法扩展”(VTE),将视觉特征引入分类法扩展任务。我们提出了文本上位词学习任务和视觉原型学习任务,以聚类文本和视觉语义。除了各自的任务外,我们还引入了超原型约束,整合文本和视觉语义以产生细粒度的视觉语义。在两个数据集上对我们的方法进行评估,我们获得了令人信服的结果。特别在中文分类法数据集上,我们的方法的准确度提升了 8.75%。此外,我们的方法在中文分类法数据集上的表现优于 ChatGPT。