GPT-4V 中的视觉文化意识探索:一项全面的探究
GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态(如深度、热力、视频和音频)方面被评估,发现其在英语视觉基准上表现出色,但无法识别图像中的简单中文文本;在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制,但通过少样本提示可以提高其性能;此外,在视频和热力等与图像类似的任务上表现出了非常好的性能。
Oct, 2023
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力,尽管存在一些限制,但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。
Nov, 2023
通过从三个角度对 GPT-4V 进行深入评估,即常识知识、细粒度世界知识和具有决策理由的综合知识,我们发现 GPT-4V 在这三项任务上均取得了最好的性能,并且在使用复合图像进行少样本学习时具有增强的推理和解释能力,但在处理世界知识时可能导致严重的错觉,未来仍需要在这个研究方向上进行改进。
Nov, 2023
我们的研究比较了四种流行的视觉语言模型在识别文化特定的图像信息并创建准确且具有文化敏感性的图像标题方面的性能,并提出了一个新的评估指标,即文化意识分数(CAS)。我们还提供了一个带有真实标签的数据集 MOSAIC-1.5k,其中包含了具有文化背景和上下文的图像,以及一个带有分配的文化意识分数的数据集,可用于未被看到的数据。创建具有文化适应性的图像标题对于科学研究非常有价值,对许多实际应用也有益处。我们希望通过向公众提供数据集和文化意识分数,促进全球范围内对于尊重和庆祝全球多样性的文化敏感性 AI 系统的更深入融合以及更多相关领域的进一步研究的发展。
May, 2024
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023
使用 GPT-4V 模型进行多模态异态检测任务,包括图像、视频、点云和时间序列数据,在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中,通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中,GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式,从而能够准确区分正常和异常实例,展现出潜在的通用异态检测能力,为异态检测开辟了新的方法。
Nov, 2023
利用现有基准数据集对 GPT-4V 的五项任务进行定量分析,并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力,结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果,并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识,但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战,同时在涉及名人和政治家知识的持续发展背景下,会出现错误信息生成的倾向,这反映了已知的幻觉问题,研究结果表明,大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。
Nov, 2023
最近,研究发现大型语言模型在各种智力任务中表现出色,然而,很少有研究探讨其与人类行为对齐,特别是涉及审美评价的行为。本研究调查了可以处理图像输入的先进语言模型 GPT-4 with Vision 在图像的审美评价任务上的表现。我们采用了两个任务,一个是预测一个群体的平均评价值,另一个是预测个体的评价值。通过探索提示和分析预测行为,我们调查了 GPT-4 with Vision 的表现。实验结果显示,GPT-4 with Vision 在预测审美评价方面表现出优秀的性能,并展现出对美和丑之间不同响应的特性。最后,我们讨论了基于人类对美感知的科学知识以及融合传统深度学习模型和大型语言模型的代理技术来开发用于审美评价的 AI 系统。
Mar, 2024
我们通过模板构建了四种语言的多语言视觉文本数据集,介绍了九项视觉语言任务,并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。
Mar, 2024