BriefGPT.xyz
Ask
alpha
关键词
contextual association
搜索结果 - 1
大型多模态模型的关键要素:图像分辨率和文本标签
本研究提出了一种名为 Monkey 的多模态模型,可以提高输入分辨率,并通过多级描述生成方法,提供丰富的信息以帮助模型学习场景和物体之间的上下文关联。在广泛的测试中,Monkey 在图像字幕生成、通用视觉问答和面向文档的视觉问答等基本任务上
→
PDF
8 months ago
Prev
Next