HL 数据集：将高层语言概念与视觉相结合

Feb, 2023

HL 数据集：将高层语言概念与视觉相结合

HL Dataset: Grounding High-Level Linguistic Concepts in Vision

Michele Cafagna, Kees van Deemter, Albert Gatt

TL;DR本文介绍一个新的高级数据集（High-Level Dataset），可以拓展经典 COOC 数据集，使得机器学习模型更好地理解抽象概念，并进一步提升模型的多模态融合能力。

Abstract

Current captioning datasets, focus on object-centric captions, describing the visible objects in the image, often ending up stating the obvious (for humans), e.g. "people eating food in a park". Although these datasets are useful to evaluate the ability of Vision & Language models to r

captioning datasets high-level dataset multimodal grounding abstract concepts visio-linguistic representations

发现论文，激发创造

物理基础的视觉语言模型用于机器人操作

通过在 36.9K 个常见家居物体的数据集 PhysObjects 上针对视觉外观捕捉人类先验知识，我们提出了一种基于物理概念的视觉语言模型（VLM），并将其与基于大语言模型的机器人规划器结合使用，取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外，在真实机器人上展示了物理概念视觉语言模型的好处，提高了任务成功率。

Sep, 2023

图像字幕视觉语义关联数据集

本论文介绍了一种文本视觉背景数据集，用于改进现代图像描述系统，通过融合与场景相关的文本信息，提高图像描述的准确性及语义关联性。

Jan, 2023

无监督文本 grounding: 将词语与图像概念相连

本研究提出了一种基于深度学习的无监督的文本 grounding（文本与图像上物体的对应关系）方法，并在 ReferIt Game 数据集与 Flickr30k 数据集上分别超过了基线 7.98% 和 6.96%。

Mar, 2018

跨语言文化下的视觉推理

通过引入印尼语、汉语、斯瓦希里语、泰米尔语和土耳其语等语言，构建了一个新的 ImageNet-style 分层协议，从本地化的角度推荐相关概念和图像，建立了一个用于多文化及多语言视觉和语言推理的数据集 MaRVL，并列举出一系列现代模型的基线，发现其跨语言性能显著滞后于英语的监督性能。

Sep, 2021

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

基于照片的自然语言推理语料库

本文介绍了一个新数据集，包含 107292 个英语句子与网络照片的组合，任务是确定自然语言字幕是否与一对照片相符。数据要求包括数量、比较和关系等组成性联合推理的定性分析以及强大的视觉推理方法的评估。

Nov, 2018

探索图像字幕中的基础问题

本文从计算认知语言学的角度探讨了多模态语义表示中的基础问题，注释和分析了五个感知属性：可操作性、感知显著性、物体数量、凝视引导和生态学生态位关联。我们对来自 Flickr30k 数据集的选定图像进行了探究性分析和统计建模，发现了在构建过程中，观看者将情境意义和可操作性与多模态语义统合到一起，而这些因素被巩固为包含视觉和文本元素的图像文字数据集中的影像字幕。本研究显示情境意义和可操作性基础对于理解系统生成适当回应至关重要，并有潜力推动人类对不同情境下的构造的理解。

May, 2023

看见无形：对静态图像中的自动高层次视觉理解的调查

计算机视觉领域的研究论文针对抽象社会概念检测问题，通过对高层视觉理解和计算机视觉任务的研究和聚类，提供了对抽象概念识别的系统回顾。

Aug, 2023

评估 A3DS 图像描述程序的语用能力

通过使用我们新开发的开源图像 - 文本数据集 “注释的 3D 形状” 来评估一个任务中性的图像描述模型的语用能力，我们发现该模型在开发对比性标题方面具有类似于人类的模式（信息量，简洁性和过度信息性）。

May, 2023

基于视觉常识的人类中心 grounding 中的人物查找

该研究介绍了一个新的人类常识任务，人类中心共识基础，并创建了一个数据集 HumanCog，并开发了一种强有力的基线方法，强调了丰富的视觉常识和多模式集成的重要性，并提出了未来的工作方向。

Dec, 2022