BriefGPT.xyz
Ask
alpha
关键词
multi-modal pre-trained model
搜索结果 - 1
CVPR
超越预训练目标检测器:图像字幕生成中的跨模态文本和视觉语境
本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。
PDF
2 years ago
Prev
Next