用 SEED 令牌化器使 LLaMA 具备视觉和绘图能力
本文介绍了 SEED,一种复杂的图像分词器,可使大型语言模型同时有看和画的能力,并提出了两个重要的原则,以有效地便于将 SEED 与 LLMs 对齐。
Jul, 2023
模态基础模型在视觉语言理解和生成方面取得了显著的进展,但是存在应用能力和真实世界适应性之间的差距。本文提出了一种统一和多功能的基础模型 SEED-X,通过整合两个增强特性来弥合这一差距:(1)理解任意大小和比例的图像,(2)实现多粒度图像生成。SEED-X 在公共基准测试中取得了竞争性结果,并在指导调节后展示了在各个领域处理真实世界应用的有效性。我们希望我们的工作能够启发未来研究,探索多功能模态基础模型在真实世界应用中的潜力。模型、代码和数据集将在此 URL 中发布。
Apr, 2024
基于强大的大型语言模型(LLMs),最近的生成式多模态大型语言模型(MLLMs)作为一个关键的研究领域备受关注,展示了出色的理解和生成能力。本研究通过引入一个名为 SEED-Bench 的基准测试,解决了 MLLMs 生成理解的评估问题,该基准测试包含 19K 个准确的多项选择问题(是现有基准测试的 6 倍大),涵盖了 12 个评估维度,包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题,该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能,在评估过程中无需人类或 GPT 的干预。我们进一步评估了 18 个模型在所有 12 个维度上的性能,涵盖了空间和时间的理解。通过评估结果揭示现有 MLLMs 的局限性,我们希望 SEED-Bench 为激发未来的研究提供见解。我们将建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。
Jul, 2023
SEED 是一种面向 LLM 的系统,允许用户轻松创建高效和有效的数据管理应用程序,通过提供代码生成、模型生成和增强 LLM 查询等主要组件来解决 LLM 服务计算和经济上的挑战,并展示其在不同数据管理任务中的效率和有效性。
Oct, 2023
我们提出了 SEED-Bench-2,这是一个综合评估多模态大型语言模型能力的基准测试,并通过对 23 个主要开源多模态大型语言模型的性能评估,揭示了现有模型的局限性。
Nov, 2023
该研究介绍了一种基于多模态大型语言模型的生成助手(LLMGA),利用大型语言模型(LLM)中内在的知识和理解能力,帮助用户进行图像生成和编辑,通过精确控制生成提示实现对稳定扩散(SD)的控制,以提供更精细、准确的内容和更直观的网络解释性,同时还提出了一个两阶段的训练方案来优化 SD 的生成结果,并引入基于参考的恢复网络来减少图像编辑过程中生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的实验结果表明,LLMGA 具有很好的生成能力,并能以交互方式在更广泛的应用中发挥作用。
Nov, 2023
提出一种名为 SEED 的新型适应方法,利用 LLMs 产生的错误作为学习机会,通过错误修订来克服自身的缺点,从而实现高效学习。实验证明,SEED 相比传统的微调方法在更少的训练样本上实现了更优异的性能,Pass@1 上相对提升了 27.2%-325.0%。同时验证了 Self-revise 的有效性,通过生成更高效的修订代码优化模型,相比于数据集中的代码样本,SEED 在各种 LLMs 上一致显示出强大的性能。
Feb, 2024
使用 TEAL 方法,将来自任何模态的输入处理为一个记号序列,学习所有模态的联合嵌入空间,并通过联合嵌入空间使得多模态的大型语言模型能够在涉及非文本模态的理解和生成任务中执行,如图像和音频。
Nov, 2023
最近,大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言,突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散标记的视觉分词器,LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像 - 文本语料库上预训练的 LaVIT 具有令人印象深刻的多模态理解能力。广泛的实验表明,它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此 https URL 上提供。
Sep, 2023