BriefGPT.xyz
Ask
alpha
关键词
vision-and-language models
搜索结果 - 23
视觉和语言推理:探索补充知识的益处
本文研究了将通用知识库中的知识注入视觉 - 语言模型中,并通过辅助训练目标增加了语义和关系知识的表征,实现了对问题回答、视觉推理等任务中的性能提升,这种技术不依赖于特定的模型,具有较小的计算开销。
PDF
3 years ago
ACL
无监督的视觉与语言预训练:无需平行图像和文本
通过无监督预训练实现视觉和语言模型的学习,使用 “mask-and-predict” 方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁,在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性
→
PDF
4 years ago
EMNLP
X-LXMERT: 使用多模态转换器进行绘画、字幕和回答问题
本文研究了图像生成模型中的视觉语言模型(V&L 模型)LXMERT,发现其效果不如其他图像生成模型,因此提出了 X-LXMERT 模型,通过训练优化使其生成图像的能力媲美最先进的生成模型,同时保持了它在问答和字幕生成任务上的优秀表现,并证明
→
PDF
4 years ago
Prev
Next