BriefGPT.xyz
Ask
alpha
关键词
visual commonsense
搜索结果 - 3
通过多图像生成改善语言模型中的视觉常识
基于多模态知识的常识推理是根本,我们介绍了一种方法来增强大型语言模型的视觉常识能力,该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上,还在传统自然语言处理基准上优于现有基线模型。
PDF
21 days ago
基于知识库的图像视觉常识发现
本研究通过借鉴自然语言处理中常识知识库 ConceptNet 的方法,系统定义了视觉常识的各种类型,并提出了一种新的任务 - 视觉常识发现(VCD),旨在提取图像中不同对象包含的细粒度常识。通过构建包括超过 10 万张图像和 1400 万个
→
PDF
4 months ago
挑战常识:WHOOPS!一个基于视觉语言的合成与组合图像基准测试
介绍了一种名为 WHOOPS!的新视觉常识数据集和基准,其中包括几种面向该数据集的任务,包括图像字幕,跨模式匹配,视觉问答和解释生成任务。结果表明,目前最先进的 AI 模型仍然落后于人类在 WHOOPS!上的表现,希望这个数据集能够激发开发
→
PDF
a year ago
Prev
Next