BriefGPT.xyz
大模型
Ask
alpha
关键词
image-to-text model
搜索结果 - 2
多模式考量下的问题生成技术研究
我们研究了从多模态源(包含图像和文本)中自动生成问题(QG)的新问题,明显扩展了现有工作的范围,后者仅关注从文本源生成的 QG。我们提出了一个简单的解决方案,名为 MultiQG-TI,它使得仅基于文本的问题生成器能够处理视觉输入。我们通过
→
PDF
a year ago
Pix2Struct: 屏幕截图解析用于视觉语言理解的预训练
Pix2Struct 是一种预先训练的图像到文本模型,能够解析丰富的文本,可用于多个领域任务,实现了最先进的结果。
PDF
2 years ago
Prev
Next