Jan, 2025

像素世界:将一切视为像素的方向

TL;DR本研究解决了现有基础模型在处理视觉和文本输入时缺乏统一感知框架的问题。通过提出将所有模态统一为像素输入的观点(“看待一切为像素”),我们开发了PixelWorld评估套件,结果表明该方法在多模态数据集上优于传统的基于标记的输入,凸显了在增强基础模型感知能力方面的潜在需求。