Nov, 2023

SPHINX:多模态大型语言模型的权重、任务和视觉嵌入的联合混合

TL;DRSPHINX 是一个多模态、大型语言模型,通过权重混合策略、任务调整和视觉嵌入实现了强大的视觉 - 语言对齐能力,具备多样的功能性,包括机器指导、理解任务、图像表示和视觉推理,为未来的多模态语言模型研究提供了实质性的贡献。