BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal transformer
搜索结果 - 21
基于多视角视觉表示的多模态变压器用于图像字幕生成
利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述,这种方法能够同时捕捉到图像内部和图像与文本之间的关系,相较于业内先前方法显著提升了效果,是图像描述任务的最新成果。
PDF
5 years ago
Prev
Next