BriefGPT.xyz
大模型
Ask
alpha
关键词
captions emendation
搜索结果 - 1
MM
融合模型用于改进视觉字幕生成
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
PDF
4 years ago
Prev
Next