BriefGPT.xyz
Ask
alpha
关键词
coco segmentation text (cost) dataset
搜索结果 - 1
VCoder: 用于多模态大型语言模型的多用途视觉编码器
人类具有视觉感知的出色技能,近期多模态大型语言模型(MLLM)在视觉与语言任务上取得了令人印象深刻的性能,但在识别或计数图像中的实体方面存在一些问题。为了改善多模态 LLM 在感知和推理方面的准确性,我们提出使用 VCoder 作为多模态
→
PDF
7 months ago
Prev
Next