不要只听,动动脑筋:利用视觉常识解决非视觉任务
本文研究了在文本游戏中使用基于视觉数据集得到的常识推理有助于提高游戏 AI 效率的优势,对比了空间关系的统计信息并在常识推理任务中进行验证实验,结果表明该方法优于现有最先进的方法。
Oct, 2022
基于多模态知识的常识推理是根本,我们介绍了一种方法来增强大型语言模型的视觉常识能力,该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上,还在传统自然语言处理基准上优于现有基线模型。
Jun, 2024
利用外部常识知识库将模型行为与人类知识对齐,并通过多层次可视化和交互式模型探索和编辑,帮助自然语言处理专家在不同场景中对模型的概念关系推理进行系统且可扩展的可视化分析。
Jul, 2023
CLEVER 是一种利用视觉感知中蕴含的 commonsense 知识,在不需要人类对图像实例进行注释的情况下,通过远程监督的多实例学习问题,从图像中提取 commonsense 知识的方法。实验结果表明,CLEVER 可以提取有质量的 commonsense 知识。
Nov, 2022
本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能,并将其转移到视觉任务中,同时提出探究对比模型嵌入空间中不同模态的系统差异,进一步理解和缓解这种关注的策略。实践证明,我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型,性能表现接近仅使用图像训练数据建立的模型,尤其是针对图像标注和视觉蕴含任务的文本训练数据,有望超过 9 个百分点的提升。同时,我们还展示了多种样式的图像标注模型,这些模型使用的不是图像数据和人工策划的语言数据,而是来自于图书、网络或语言模型可用的文本数据。
Nov, 2022
本篇论文呼吁 AI 的下一代要拥抱类人的 “黑暗” 的常识,以解决新的任务,提出 “少数据用于大任务” 的范式,FPICU 是认知 AI 的五个核心领域,是类人智能的 “暗物质”
Apr, 2020
本文提出了一种基于多结构的常识知识的推理模型,通过句子级事实和图级事实表示外部知识,通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中,已在 VisDial v1.0 和 VisDialCK 数据集上取得了有效的性能优于比较方法。
Apr, 2022
该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标,提出一项包含 290k 多选题的新数据集 VCR,并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络(R2C),该文章对计算机视觉模型的性能进行了分析,并提出未来研究的方向。
Nov, 2018