Qwen 是我们大型语言模型系列的第一款综合语言模型,包括基础预训练语言模型 Qwen 和使用人类对齐技术微调的聊天模型 Qwen-Chat,前者在多个下游任务中展现了出色的性能,而后者在复杂任务上表现出令人印象深刻的性能,甚至与更大的模型相比都具有先进的工具使用和计划能力。
Sep, 2023
该研究介绍了 Qilin-Med-VL,首个中文大型视觉语言模型,旨在集成对图文数据的分析,通过预训练的 Vision Transformer 和基础语言模型的两阶段课程训练过程增强了生成医学字幕和回答复杂医学查询的能力,同时发布了由超过 1M 个图文对组成的 ChiMed-VL 数据集,可用于对医学数据进行详细和全面的解释。
Oct, 2023
DeepSeek-VL 是一个开源的视觉 - 语言模型,设计用于实际的视觉和语言理解应用,通过多样性数据、基于用户场景的细分以及高效的编码方式来提升模型的用户体验和性能。
Mar, 2024
本文介绍了作者团队领导的 “文兰” 项目的主要研究方向,即通过两个塔的 BriVL 预训练模型和跨模态对比学习框架的先进算法,隐式地建模跨模态关联,从而更成功地实现大规模多模态预训练。同时,他们还建立了一个大规模的中文多源图像文本语料库,称为 RUC-CAS-WenLan,用于 BriVL 模型的预训练。实验结果表明,预训练的 BriVL 模型在各种下游任务中的性能优于 UNITER 和 OpenAI CLIP。
Mar, 2021
通过引入视觉语义,将大规模的视觉 - 语言模型 (LVLMs) 融合到多模态对话中,Ziya-VL 在英语和汉语多模态场景中展现出了具有竞争力的图片 - 文本生成和理解能力。
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到 60 亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
Dec, 2023
我们提出了一种评估方法,使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力,通过构建综合的触石视觉对话数据集和整合详细的图像注释,我们能够在不需要人为干预的情况下,利用先进的大语言模型直接评估多模态对话的质量,从而为大视觉语言模型的评估提供参考,并铺就构建更强大的大视觉语言模型的道路。
Aug, 2023
通过引入 LaVy 和 LaVy-Bench,我们在解决高质量多模式资源缺失的情况下,开创性地推进了越南语多模式大型语言模型的发展。
Apr, 2024
这篇论文从时间的角度对视觉语言智能进行了全面的调研,总结了三个时期的发展,包括特定任务方法,视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型,并讨论了未来的发展趋势.
Mar, 2022