Nov, 2023

OtterHD: 高分辨率多模态模型

TL;DROtterHD-8B 是一个可处理高分辨率图像输入的多模态模型,具有灵活的输入维度处理能力,在小物体的细节和空间关系辨析方面的性能超过其他模型。研究结果揭示了不同模型之间在视觉信息处理上的结构差异以及视觉编码器的预训练分辨率差异对模型效果在该基准测试中的影响。该研究突出了大型多模态模型中的灵活性和高分辨率输入能力的关键作用,同时展示了 Fuyu 架构在处理复杂视觉数据方面的潜力。