BriefGPT.xyz
Ask
alpha
关键词
representation-level fusion models
搜索结果 - 1
利用视觉问答进行图像字幕排名
本研究将视觉问题回答任务视为 “特征提取” 模块,提取图像和标题的表征,以此为基础对图像 - 标题进行排序并提出融合模型提高图像 - 标题匹配一致性的表现。实验发现,该模型在 MSCOCO 数据集上的字幕检索提高了 7.1%,图像提取提高了
→
PDF
8 years ago
Prev
Next