BriefGPT.xyz
大模型
Ask
alpha
关键词
fine-grained perception
搜索结果 - 3
TextHawk:探索多模态大型语言模型的高效细粒度感知
TextHawk 是一种为面向文档任务设计的多模态大型语言模型,通过引入四个专门的组件实现高效的细粒度视觉感知,捕捉文档图像的层级结构和语义关系,表现出在细粒度文档感知和一般能力上的有效性和优越性。
PDF
3 months ago
CoCoT: 大型多模型多图像输入的对比思维链接引导
当探索人工通用智能(AGI)的发展时,大型多模态模型(LMMs)在处理多个图像输入的信息时面临两个问题:细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面:首
→
PDF
6 months ago
大型语言模型的良好视觉分词器的特点是什么?
通过实证研究,我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器,以使大型语言模型(LLM)成为强大的多模态大语言模型(MLLM)。我们发现,GVT 在不引入额外的参数和任务特定的微调的情况下,展现出了在多个尺度上的强大视觉
→
PDF
a year ago
Prev
Next