DeepSeek-VL: 实现真实世界的视觉 - 语言理解
DeepSeek-V2 是一种经济高效的 Mixture-of-Experts(MoE)语言模型,具有 236B 总参数,支持 128K tokens 的上下文长度。通过创新的架构,如 Multi-head Latent Attention(MLA)和 DeepSeekMoE,DeepSeek-V2 不仅在性能上大大超越 DeepSeek 67B,而且节省了 42.5% 的训练成本,将 KV 缓存减少了 93.3%,并将最大生成效率提升了 5.76 倍。
May, 2024
3D-VL 模型面临语言输入样式的敏感性,本研究通过提出一个语言鲁棒性任务和设计 3D 语言鲁棒性数据集评估现有模型的性能,在各种 3D-VL 任务中发现所有模型性能显著下降。现有模型存在脆弱和偏置的融合模块,缺乏多样性的现有数据集是其根源,最后通过由 LLM 驱动的无需训练模块来提高语言鲁棒性。
Mar, 2024
通过研究扩展定律,我们发现了 DeepSeek LLM 在两种常用的开源配置下,7B 和 67B,用于扩展大规模模型的独特发现,并介绍了 DeepSeek LLM 项目的长期前景。通过创建包含 2 万亿标记的数据集并不断扩展,来支持预训练阶段。我们在 DeepSeek LLM 基础模型上进行有监督的微调和直接偏好优化,从而创建了 DeepSeek Chat 模型。评估结果表明,DeepSeek LLM 67B 在各种基准测试中均超过 LLaMA-2 70B,尤其在代码、数学和推理领域。此外,开放式评估显示 DeepSeek LLM 67B Chat 在性能上优于 GPT-3.5。
Jan, 2024
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
通过介绍 DeepSeek-Coder 系列,一种从头开始训练的开源代码模型,基于高质量项目级代码语料库进行预训练,利用填空任务和 16K 窗口提升代码生成和填充,在多个基准测试中展现出不仅在开源代码模型中达到最先进的性能,而且超越了诸如 Codex 和 GPT-3.5 等现有的闭源模型。此外,DeepSeek-Coder 模型采用宽松许可证,允许进行研究和无限制的商业应用。
Jan, 2024
通过识别关键组件和创建具有受限推理成本的高效模型,重新定义了视觉语言模型的设计,以实现推理吞吐量的显著提高,并保持高性能。
Jun, 2024
通过引入具有明确区域建模能力的 RegionVLM 模型,并利用包含区域信息的 Localized Narratives 数据集,我们的实验表明,我们的单一通用模型不仅实现了交互式对话系统,还在各种零样本区域理解任务上展现出了卓越的性能,而不会损害其对全局图像的理解能力。
Mar, 2024
本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合,运用 20 个模型的结合方式,在对 coarse labels 进行两阶段训练的基础上,进行了精细化的自我监督训练。此外,该模型通过使用文本描述训练图像作为监督信号,对图像编码器进行了微调。最终,该模型达到了 0.7623 MAR@10 的成绩,超过了所有竞争对手。
Jul, 2022
该研究提出了 ViLaM,一个统一的视觉 - 语言转换模型,通过集成基于大型语言模型的指令调整,能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力,从而在医学图像分析等复杂视觉任务中取得了非凡的表现,并展示了其令人印象深刻的零样本学习能力,表明 ViLaM 在医学领域具有潜在的未来应用。
Nov, 2023