Aug, 2024
ARPA:一种新颖的混合模型,推动视觉词义消歧的进展,结合大型语言模型和变换器
ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation
Using Large Language Models and Transformers
TL;DR本文研究解决了视觉词义消歧(VWSD)中的多模态数据整合问题,提出了ARPA架构,将大型语言模型和变换器的特性融合,通过自定义的图神经网络层学习数据中的复杂关系。实验证明,ARPA在复杂消歧场景中表现出色,有望重塑语言和视觉数据互动的标准。