SEED: 大型语言模型下的简单高效有效数据管理
提出一种名为 SEED 的新型适应方法,利用 LLMs 产生的错误作为学习机会,通过错误修订来克服自身的缺点,从而实现高效学习。实验证明,SEED 相比传统的微调方法在更少的训练样本上实现了更优异的性能,Pass@1 上相对提升了 27.2%-325.0%。同时验证了 Self-revise 的有效性,通过生成更高效的修订代码优化模型,相比于数据集中的代码样本,SEED 在各种 LLMs 上一致显示出强大的性能。
Feb, 2024
本文介绍了 SEED,一种复杂的图像分词器,可使大型语言模型同时有看和画的能力,并提出了两个重要的原则,以有效地便于将 SEED 与 LLMs 对齐。
Jul, 2023
通过引入 SEED 图像标记器,使 LLMs 能够在其原始训练配方下执行可扩展的多模式自回归,并在广泛的多模式理解和生成任务中展示出令人印象深刻的性能。
Oct, 2023
基于强大的大型语言模型(LLMs),最近的生成式多模态大型语言模型(MLLMs)作为一个关键的研究领域备受关注,展示了出色的理解和生成能力。本研究通过引入一个名为 SEED-Bench 的基准测试,解决了 MLLMs 生成理解的评估问题,该基准测试包含 19K 个准确的多项选择问题(是现有基准测试的 6 倍大),涵盖了 12 个评估维度,包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题,该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能,在评估过程中无需人类或 GPT 的干预。我们进一步评估了 18 个模型在所有 12 个维度上的性能,涵盖了空间和时间的理解。通过评估结果揭示现有 MLLMs 的局限性,我们希望 SEED-Bench 为激发未来的研究提供见解。我们将建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。
Jul, 2023
模态基础模型在视觉语言理解和生成方面取得了显著的进展,但是存在应用能力和真实世界适应性之间的差距。本文提出了一种统一和多功能的基础模型 SEED-X,通过整合两个增强特性来弥合这一差距:(1)理解任意大小和比例的图像,(2)实现多粒度图像生成。SEED-X 在公共基准测试中取得了竞争性结果,并在指导调节后展示了在各个领域处理真实世界应用的有效性。我们希望我们的工作能够启发未来研究,探索多功能模态基础模型在真实世界应用中的潜力。模型、代码和数据集将在此 URL 中发布。
Apr, 2024
我们提出了 SEED-Bench-2,这是一个综合评估多模态大型语言模型能力的基准测试,并通过对 23 个主要开源多模态大型语言模型的性能评估,揭示了现有模型的局限性。
Nov, 2023
SEED-Data-Edit 是一个用于指导图像编辑的独特混合数据集,包括高质量编辑数据、实际场景数据、和多轮编辑数据;使用该数据集对预训练的多模态大型语言模型进行微调,显示了其在指导图像编辑方面的潜力和有效性。
May, 2024
通过系统文献综述,我们深入研究了大型语言模型(LLMs)与软件工程(SE)的交叉领域,并特别关注 LLMs 在 SE 中的应用、影响和潜在局限。通过收集和分析 2017 年至 2023 年的 229 篇研究论文,我们回答了四个关键研究问题(RQs),比较分析了不同用于 SE 任务的 LLMs 的特点和用途,并详细描述了在此领域中数据收集、预处理和应用的方法,揭示了稳健、经过良好策划的数据集对于成功实施 LLM 的关键作用。同时,我们还调查了优化和评估 LLMs 在 SE 中性能的策略,以及与提示优化相关的常见技术。通过解决上述研究问题,我们勾勒出当前最先进的研究状况,找出现有研究的不足之处,并标注未来研究的有前景的领域。
Aug, 2023
使用以预训练大型语言模型(LLM)为基础的 LLM2LLM 方法,通过数据增强和迭代,显著提高 LLM 在低数据情况下的性能,优于传统的微调和其他数据增强方法,减少了对数据策划的依赖,为更可扩展和高性能的 LLM 解决方案铺平了道路。
Mar, 2024
这篇论文介绍了 SeeD,一种新颖而高效的推理框架,以同时优化运行时速度和 GPU 内存管理。通过采用预定的推测执行,SeeD 能够高效处理思维生成和状态评估的多次迭代,利用一种按轮次预定的策略来管理草稿模型的调度。在三个推理数据集上进行的广泛实验评估表明,SeeD 具有卓越的加速性能,为训练无关的预测解码中的批量推理提供了可行的路径。
Jun, 2024