BriefGPT.xyz
大模型
Ask
alpha
关键词
tim-30m
搜索结果 - 1
StrucTexTv3:一个高效的视觉语言模型,适用于文本丰富的图像感知、理解和更多
StrucTexTv3 是一种高效的视觉语言模型,通过采用多尺度减少可视转换器和多粒度令牌采样器作为视觉令牌生成器,结合指令学习提高感知与理解能力,并使用 TIM-30M 来提升模型的鲁棒性,实现了领先的文本丰富图像感知任务和理解任务的结果
→
PDF
a month ago
Prev
Next