Feb, 2024

填补间隔:利用视觉Transformer融合基于环境感知的知识进行高级图像分类

TL;DR我们通过利用文化图像的感知知识,结合深度视觉模型的感知理解,提出了一种新的方法,用于在图像中检测抽象概念和进行图像分类。通过自动提取图像中的感知语义单元,并将其建模和整合到ARTstract Knowledge Graph (AKG)中,我们增强了AKG的性能和可解释性。结果表明,我们的方法在抽象概念图像分类方面优于现有技术,这表明了神经符号方法在知识整合和图像表示方面具有强大的潜力。