用SEED令牌化器使LLaMA具备视觉和绘图能力
基于强大的大型语言模型(LLMs),最近的生成式多模态大型语言模型(MLLMs)作为一个关键的研究领域备受关注,展示了出色的理解和生成能力。本研究通过引入一个名为SEED-Bench的基准测试,解决了MLLMs生成理解的评估问题,该基准测试包含19K个准确的多项选择问题(是现有基准测试的6倍大),涵盖了12个评估维度,包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题,该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能,在评估过程中无需人类或GPT的干预。我们进一步评估了18个模型在所有12个维度上的性能,涵盖了空间和时间的理解。通过评估结果揭示现有MLLMs的局限性,我们希望SEED-Bench为激发未来的研究提供见解。我们将建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。
Jul, 2023
通过引入MAGVIT-v2作为视觉分词器,本文展示了大型语言模型(LLMs)在图像和视频生成上优于扩散模型,并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。
Oct, 2023
该研究介绍了一种基于多模态大型语言模型的生成助手(LLMGA),利用大型语言模型(LLM)中内在的知识和理解能力,帮助用户进行图像生成和编辑,通过精确控制生成提示实现对稳定扩散(SD)的控制,以提供更精细、准确的内容和更直观的网络解释性,同时还提出了一个两阶段的训练方案来优化SD的生成结果,并引入基于参考的恢复网络来减少图像编辑过程中生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的实验结果表明,LLMGA具有很好的生成能力,并能以交互方式在更广泛的应用中发挥作用。
Nov, 2023
模态基础模型在视觉语言理解和生成方面取得了显著的进展,但是存在应用能力和真实世界适应性之间的差距。本文提出了一种统一和多功能的基础模型SEED-X,通过整合两个增强特性来弥合这一差距:(1)理解任意大小和比例的图像,(2)实现多粒度图像生成。SEED-X在公共基准测试中取得了竞争性结果,并在指导调节后展示了在各个领域处理真实世界应用的有效性。我们希望我们的工作能够启发未来研究,探索多功能模态基础模型在真实世界应用中的潜力。模型、代码和数据集将在此URL中发布。
Apr, 2024
多模态生成技术的调查,介绍了不同领域中的重要进展,包括图像、视频、3D和音频,研究了方法和数据集,还提出了使用现有生成模型进行人机交互的工具增强型多模态代理,同时探讨了人工智能安全问题和新兴应用及未来前景。
May, 2024
LlamaGen是一种新型的图像生成模型家族,采用大型语言模型中的原始“下一个标记预测”范例应用于视觉生成领域,不附带对视觉信号的归纳偏见,可以在适当缩放的情况下实现最先进的图像生成性能。
Jun, 2024
使用多模态大型语言模型(MLLM)提出了SEED-Story,一种新颖的方法,用于生成扩展的多模态故事。模型基于MLLM的强大理解能力,预测文本和视觉标记,并通过适应的视觉解标记器处理视觉标记以生成具有一致的字符和风格的图像。还提出了多模态注意力池机制,以高效的自回归方式生成高达25个序列(仅使用10个进行训练)的故事。此外,还提供了一种名为StoryStream的大规模高分辨率数据集,用于训练模型并在各个方面定量评估多模态故事生成任务。
Jul, 2024