Ziya-VL: 多任务指导微调的双语大型视觉语言模型
本文介绍了 Multi-Modal Multilingual Instruction Tuning 数据集,其中包含了 40 个经过精心筛选的数据集,共 2.4 百万个实例和 400 个任务指令,可用于优化视觉语言模型的人类指令对齐,同时介绍了在此数据集上训练的 Ying-VLM 视觉语言模型的表现。
Jun, 2023
综合评估了多模态大型语言模型的指导遵循能力,并引入了I4基准测试,提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略,从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型Cheetah,达到了I4中所有任务的零样本表现的最新水平,并与当前MME基准的最新指导优化模型相比具有竞争力的性能。
Aug, 2023
通过引入pool-adapter模块,保留视觉嵌入的位置信息,我们的InfMLLM方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。
Nov, 2023
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用MLLMs扩展每个图像的多个标题,通过“文本切割”方法来防止MLLMs引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得5.6〜35.0%和16.8〜46.1%的R@1提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对MLLMs的多方面使用的探索。
Nov, 2023
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的MLLMs奠定了基础。
Feb, 2024
通过对一些最先进的VLM(Visual Language Model)进行分析,我们发现它们在执行ICL(In-Context Learning)指令时存在一定的不足。为了验证这个猜想,我们提出了一种简单但令人惊讶地有效的策略,通过扩展一个常见的VLM对齐框架,实现ICL支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解,从而显著提升了21.03%的ICL表现(平均11.3%),超过了最强VLM基线和多种ICL基准,并为VLM的ICL评估贡献了新的基准,并讨论了它们相对于现有技术的优势。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
我们通过模板构建了四种语言的多语言视觉文本数据集,介绍了九项视觉语言任务,并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。
Mar, 2024
本研究解决了传统视觉语言模型在复杂视觉推理场景中的表现不足的问题。我们提出了复杂视觉推理大型语言模型(CVR-LLM),通过迭代自我精炼循环生成详细的上下文感知描述,并利用大型语言模型的文本知识进行准确预测,显著提升了推理能力。研究结果表明,CVR-LLM在多项复杂视觉推理任务上达到目前的最佳性能,具有重要的应用潜力。
Sep, 2024