关键词image-text joint embedding
搜索结果 - 2
- ECCV利用文本为视觉表示建立通用领域基础
本文提出了一种基于自然语言监督的跨模态领域泛化方法,利用视觉和文本交互的表征来实现高级别类别判别的信息融合,并使用可解释的模型来生成解释,从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。
- VU-BERT:一个视觉对话的统一框架
本文提出了一种名为 VU-BERT 图文联合嵌入的框架,通过用 patch projection 获取视觉嵌入来简化模型,从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题,并在可视对话任务上取得了较高的竞争性表现。