BriefGPT.xyz
Ask
alpha
关键词
multimodal image-language transformer models
搜索结果 - 1
超越图像 - 文本匹配:多模态变换器中使用引导掩模进行动词理解
本研究提出了一种指导掩蔽的探测方法,评估最近的多模态图像语言变形器模型的学习表示能力,重点研究考虑感兴趣区域(ROI)特征作为输入标记的多模态模型,通过指导掩蔽分析动词的理解能力,在 ViLBERT、LXMERT、UNITER 和 Visu
→
PDF
5 months ago
Prev
Next