- 基于质量驱动数据选择的课程学习
通过利用图像文字相互关系和模型困惑度评估选择数据的品质,本研究提出了一种利用两个属性在二维空间选择数据的数据选择方法。研究结果表明,相比于使用完整数据集,在五种常见能力上得到了显著提升,可以构建不同品质的多阶段子集以促进课程学习。
- Meteor:基于曼巴的对大型语言和视觉模型注释的遍历
通过使用多面手的理由,我们提出了一种新的有效率的 LLVM(Mamba),以提高理解和回答能力,并在多个评估基准中取得了显著的视觉语言性能改进。
- CVPREmoVIT:利用视觉指令调整革新情绪洞察
以 EmoVIT 架构为基础,使用 GPT 辅助流程生成情感视觉指令数据,并通过广泛实验证明了模型在情感分类、情感推理和幽默理解方面的能力,为语言模型时代的情感视觉指导调整提供了强有力的基准,并为未来的探索打开了新的可能性。
- CVPRLLaMA-Excitor:通过间接特征交互进行通用指令调优
LLaMA-Excitor 是一种基于轻量级方法的 LLMs 细调技术,通过逐渐更多地关注值得重视的信息,实现对指令的更好遵循,并保持 LLMs 的预训练知识。此方法在低质量指令遵循数据集的 LLMs 细调中表现出自适应分配额外关注的能力, - HyperLLaVA:基于动态视觉和语言专家调整的多模态大型语言模型
通过使用 HyperLLaVA 和 HyperNetworks,我们在多模态大型语言模型方面取得了巨大的进展,并在多个基准测试中显著超越了现有的解决方案。
- 少即是多:用于视觉指令调优的数据值估计
通过对视觉指令数据集的实证研究,发现其存在显著冗余性,因此提出了一种新的数据选择方法 TIVE,它基于计算梯度估计了视觉指令的任务级别和实例级别价值,并根据估计值确定了视觉指令中的任务比例,选择代表性实例组成较小的训练集,实验证明该方法只需 - CoTBal: 多任务视觉指令调整的综合任务平衡
本研究提出了一种全面任务平衡算法(CoTBal),用于大型多模态模型(LMMs)的多任务视觉指令调整,实验证明 CoTBal 能够取得优越的整体性能。
- 通向通用多模型的视觉指导调整:一项调查
本文系统综述了视觉指令调整方法,包括计算机视觉任务范式、视觉指令调整的发展、常用的网络架构、评估设置和任务、常用的数据集、已有的视觉指令调整方法的分类和对比、挑战和未来研究方向。
- 看得见才能相信:促进 GPT-4V 实现更好的视觉指导调优
通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令,我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V,并通过实验验证和案例研究证明,高质量的视觉指令数据可以显著提高现有最先 - 什么是好的视觉指导?为视觉指导调整综合复杂视觉推理指导方法
通过对复杂视觉推理任务进行重点指导,我们设计了一个系统性的方法来自动创建高质量的复杂视觉推理指导,实验证明我们的数据集显著提高了所有比较的多模态大型语言模型的性能。
- 通过视觉指导优化的改进基准模型
通过对 LLaVA 进行简单修改,采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据,我们建立了更强的基线模型,在 11 个基准测试中达到了最新的成果。
- 一个关于扩展面向指令调整的大型多模态模型的实证研究
通过调整视觉指导,对开源大型多模态模型进行扩展研究,探索影响多模态和语言能力的变量,发现扩展模型能够提升性能,具有与整个模型微调相当的效果,并强调了提高图像分辨率和混合多模态语言数据对性能的重要性,有时视觉指导可以提高纯语言功能。
- 超越文字:多模态训练提升语言模型在真实性和伦理方面的能力
多模态大型语言模型(MLLMs)训练基于大型语言模型(LLM),具备理解多模态输入和生成文本响应的增强能力。本研究表明,视觉指导调整在纯自然语言处理(NLP)环境中意外且有趣地帮助模型实现了改进的真实性和道德一致性。
- 多模态大语言模型的位置增强视觉指令调整
通过引入区域级别的视觉编码器,本文提出了一种增强图像教学调整功能的多模态大型语言模型(MLLMs),以实现更细粒度的模态交叉对齐,并设计了多种数据生成策略构建了图像 - 区域 - 语言指令数据集,实验结果表明该模型的卓越性能。
- 稳定的 LLaVA:通过合成的图像对话数据增强视觉指导调整
我们提出了一种新的数据收集方法,通过异步合成图像和对话以进行视觉指导调优,结合 ChatGPT 和文本到图像生成模型的能力,显著增强了多种模型功能。
- SVIT:扩展视觉指导调整
通过构建包括 160 万对问答对、106 千个详细图像描述的 320 万视觉指令调整数据集,对多模态模型进行训练可显著提高其在视觉感知、推理和规划方面的多模态性能。
- 大规模多模型对齐与鲁棒指令调整
通过引入大规模的视觉指导优化数据集 LRV-Instruction 以及使用 GPT4 辅助视觉指导评估方法(GAVIE)来评估 LMMs 的视觉指导优化,本研究探究了 LMMs 的幻觉问题,并成功地缓解了幻觉并提高了该模型的性能。