Rec-GPT4V:大型视觉语言模型的多模态推荐
通过研究 GPT-4V (ison),我们发现多模态模型在推荐任务中的潜力,并证明了 GPT-4V 具有出色的零 - shot 推荐能力,同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型,以提供更多样性和互动性,从而增强用户体验。
Nov, 2023
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
利用现有基准数据集对 GPT-4V 的五项任务进行定量分析,并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力,结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果,并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识,但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战,同时在涉及名人和政治家知识的持续发展背景下,会出现错误信息生成的倾向,这反映了已知的幻觉问题,研究结果表明,大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。
Nov, 2023
我们通过模板构建了四种语言的多语言视觉文本数据集,介绍了九项视觉语言任务,并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。
Mar, 2024
大规模语言模型的出现显著推动了人工智能的快速发展,并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而,目前的研究主要集中在视觉识别任务上,缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集,这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同,RSICap 包括 2,585 个人工注释的字幕,具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述,包括场景描述(例如居住区、机场或农田)以及对象信息(例如颜色、形状、数量、绝对位置等)。为了促进在 RS 领域中对视觉语言模型的评估,我们还提供了一个基准评估数据集 RSIEval,它包括人工注释的字幕和视觉问答对,可以全面评估在 RS 背景下的视觉语言模型。
Jul, 2023
我们提出了一种互动式图像检索系统,结合了视觉语言模型和大型语言模型,通过用户反馈迭代改进查询,并利用无噪声的查询扩展提高检索准确性,在评估中获得了 10% 的召回率改善。
Apr, 2024
利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案,通过合成数据集,我们训练了 ALLaVA 模型,该模型在 12 个基准测试中取得了竞争性的性能,展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。
Feb, 2024
最近,GPT-4 语言模型与视觉能力相结合,我们对 GPT-4V 和其他五个基准模型进行了提示评估,包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought,在多模态 LLMs 上的扩展,在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析,突出了一致性多模态推理所面临的挑战。
Dec, 2023
通过将视觉 - 语言模型(VLMs)与大型语言模型(LLMs)集成,近期已取得重要进展。本文扩展和优化了 MiniGPT-4 以进行逆向设计任务,并且实验证明了通用的 VLMs(特别是 MiniGPT-4)在复杂任务(如逆向设计)方面的可扩展性。
Jun, 2024