BriefGPT.xyz
大模型
Ask
alpha
关键词
vision-language generative pre-trained transformer
搜索结果 - 1
VL-GPT:用于视觉与语言理解与生成的生成式预训练 Transformer 模型
VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT 在包括图像字幕生成、视觉问答、文
→
PDF
7 months ago
Prev
Next