Sep, 2023

Kosmos-2.5: 一个多模态的才华模型

TL;DRKosmos-2.5 是一个多模式文本密集图像的机器阅读模型,能够生成带有空间感的文本块并以 markdown 格式产生结构化文本输出,通过 Transformer,任务特定的提示和灵活的文本表示来实现统一的多模式文本功能,可以适应不同提示的文本密集图像任务。