BriefGPT.xyz
大模型
Ask
alpha
关键词
vision and language representation learning
搜索结果 - 2
ECCV
Switch-BERT: 通过切换注意力和输入来学习建模多模态交互
本文提出了一种名为 Switch-BERT 的多模态机器学习模型,它通过引入可学习的分层和交叉层交互来优化注意力集合,从而解决了多样输入模态和固定结构下的模态不匹配问题,实现了良好的视觉问答、图像文本检索和指代表达理解等任务的性能。
PDF
a year ago
大规模对抗训练用于视觉与语言表示学习
该研究提出了一种基于对抗训练的大规模视觉语言表示学习方法 VILLA,该方法在嵌入空间内进行对抗训练,取得了新的最优性能。
PDF
4 years ago
Prev
Next