基于视觉常识的人类中心 grounding 中的人物查找
CLEVER 是一种利用视觉感知中蕴含的 commonsense 知识,在不需要人类对图像实例进行注释的情况下,通过远程监督的多实例学习问题,从图像中提取 commonsense 知识的方法。实验结果表明,CLEVER 可以提取有质量的 commonsense 知识。
Nov, 2022
该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标,提出一项包含 290k 多选题的新数据集 VCR,并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络(R2C),该文章对计算机视觉模型的性能进行了分析,并提出未来研究的方向。
Nov, 2018
本文提出了一个基于人类重心的空间和运动表示的低层次视觉处理与高层次人类中心的空间和运动表示相结合的方法来解决物体交互和室内运动等问题。
Sep, 2017
提出了一种名为 VisualComet 的框架,用于预测图片中可能发生的事件、人物意图和接下来可能发生的事件,并建立了一个包含超过 1.4 百万个文本描述和各种图像的广泛集合。此外,研究者在图片和文本之间建立了紧密的链接,以确保在视觉和文本上的共同推理取得了强劲的基础表现,证明了集成是关键。
Apr, 2020
本研究探讨了利用图像中的多模态信息增强文本生成 Transformer 模型通用知识的有效方法。我们使用 BART 和 T5 进行了实验,并通过 VisCTG 方法成功地改善了通用知识、流畅性和特定性等问题的基线文本生成模型。
Sep, 2021
利用外部常识知识库将模型行为与人类知识对齐,并通过多层次可视化和交互式模型探索和编辑,帮助自然语言处理专家在不同场景中对模型的概念关系推理进行系统且可扩展的可视化分析。
Jul, 2023
本研究通过借鉴自然语言处理中常识知识库 ConceptNet 的方法,系统定义了视觉常识的各种类型,并提出了一种新的任务 - 视觉常识发现(VCD),旨在提取图像中不同对象包含的细粒度常识。通过构建包括超过 10 万张图像和 1400 万个对象 - 常识对的数据集(VCDD),并提出了一种将视觉 - 语言模型与指令调整相结合的生成模型(VCDM),其在 VCD 中表现出色,尤其在隐含常识发现方面优于 GPT-4V。VCD 的价值进一步得到了两个下游任务的应用验证,包括视觉常识评估和视觉问答。数据和代码在 GitHub 上可获得。
Feb, 2024
该研究旨在通过评估不同模型在视觉推理方面的表现来回答视觉问答模型是否在进行视觉推理,为此,研究使用了 GQA 数据集中提供的目标细粒度标注,提出了一种系统性的目标中心的视觉推理诊断方法,并开发了一个名为图形推理机的诊断模型,该模型使用概率场景图替代纯符号视觉表示,并对视觉推理模块进行了教师强制训练。
Dec, 2020
本文构建了 Geo-Diverse Visual Commonsense Reasoning(GD-VCR)数据集,以测试视觉 - 语言模型理解文化和地理位置特定常识的能力。通过研究两种最先进的视觉 - 语言模型,我们发现它们对于非西方地区的性能显着低于西方地区,并分析了性能差异背后的原因。
Sep, 2021
解读可废除文明规范的视觉基准下的常识法则对机器来说是一项挑战,并提出一种通过提取大型语言模型中的社会常识知识来改善模型与人类对齐的新方法。
Oct, 2023