关键词fine-grained interaction
搜索结果 - 3
- MAMO: 面向细粒度视觉语言表征学习的遮蔽多模态建模
本文提出一种联合掩蔽多模态建模方法 (MAMO),通过联合掩盖图像 - 文本输入,并通过隐式和显式目标来恢复掩蔽信号,从而学习细粒度的多模态表示,实现高级和语义明确的信息恢复,取得了各种下游视觉 - 语言任务中的最新成果。
- FILIP:细粒度的交互式语言图像预训练
本文介绍一种利用跨模态后期交互机制实现精细级别对齐的大规模 Fine-grained 互动语言 - 图像预训练(FILIP)方法,并构建了一个用于预训练的新的大规模图像 - 文本对数据集。实验结果显示,FILIP 在多个视觉 - 语言任务中 - 面向多跳问题回答的粗粒度分解与细粒度交互
本文提出了一种新的多跳问题回答模型架构,通过应用 CGDe 和 FGIn 两种策略,在 SQuAD 和 HotpotQA 数据集上表现出超越 state-of-the-art 基线的性能。