超越语言:从图片中学习常识进行推理
基于多模态知识的常识推理是根本,我们介绍了一种方法来增强大型语言模型的视觉常识能力,该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上,还在传统自然语言处理基准上优于现有基线模型。
Jun, 2024
通过使用连锁图像方法,将复杂的语言推理问题转化为简单的模式识别,并引入一种符号化的多模态大型语言模型,该模型可以根据语言指令生成图像并接受文本和图像作为输入,实验结果表明连锁图像方法显著提高了在几何学、国际象棋和常识任务上的性能。
Nov, 2023
本文提出了一种基于多结构的常识知识的推理模型,通过句子级事实和图级事实表示外部知识,通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中,已在 VisDial v1.0 和 VisDialCK 数据集上取得了有效的性能优于比较方法。
Apr, 2022
该论文提出了一种场景图增强的图像 - 文本学习框架,其中利用视觉场景图结构进行常识推理,通过多跳图变压器实现模型结构的正则化,引入了一种利用文本注释进行域相关的视觉场景图训练和生成的弱监督学习方法并在 VCR 和其他任务中进行了广泛的实验,发现其显着提高了性能并证明了每个提出的组件的有效性。
Dec, 2021
利用外部常识知识库将模型行为与人类知识对齐,并通过多层次可视化和交互式模型探索和编辑,帮助自然语言处理专家在不同场景中对模型的概念关系推理进行系统且可扩展的可视化分析。
Jul, 2023
我们的研究工作探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理(VCR)中的协同能力。我们将 VCR 问题分为视觉常识理解(VCU)和视觉常识推断(VCI)两个方面。在 VCU 方面,预训练的 VLM 展示出强大的跨数据集泛化能力。然而,在 VCI 方面,VLM 面临困难。我们提出了名为 ViCor 的协作方法,在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估,并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。
Oct, 2023
本文提出了一种利用视觉场景中的场景描述图(SDG)从图像中提取语言描述的方法,该方法通过自动构建的知识库应用视觉和推理的方式构建 SDG,并使用自然语言处理的图像注释进行的 “常识” 知识库和来自资源(如 WordNet)的词汇本体知识。通过针对 Flickr8k、Flickr30k 和 MS-COCO 数据集的基于 Amazon Mechanical Turk(AMT)的评估,我们的方法获得的自动构建句子的 SDGs 通常比基于最新的最先进的图像标题方法更相关和全面的描述了图像。我们的图像 - 句子对齐评估结果也与最新的最先进方法相当。
Nov, 2015
本文提出了一种名为 DANCE 的数据增强策略,使用知识图谱线性化技术向现有 VL 数据集中注入常识知识,从而提高 VL 模型的常识能力,并首次提出了基于检索的常识诊断基准进行细致实验验证。
Nov, 2022
本文研究了在文本游戏中使用基于视觉数据集得到的常识推理有助于提高游戏 AI 效率的优势,对比了空间关系的统计信息并在常识推理任务中进行验证实验,结果表明该方法优于现有最先进的方法。
Oct, 2022
CLEVER 是一种利用视觉感知中蕴含的 commonsense 知识,在不需要人类对图像实例进行注释的情况下,通过远程监督的多实例学习问题,从图像中提取 commonsense 知识的方法。实验结果表明,CLEVER 可以提取有质量的 commonsense 知识。
Nov, 2022