BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal comprehension capability
搜索结果 - 1
动态离散视觉标记的统一语言 - 视觉预训练
最近,大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言,突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散
→
PDF
10 months ago
Prev
Next