对齐视觉和词汇语义

Dec, 2022

Aligning Visual and Lexical Semantics

Fausto Giunchiglia, Mayukh Bagchi, Xiaolei Diao

TL;DR本文介绍了与计算机视觉系统相关的两种语义 —— 视觉语义和词汇语义，分别关注人类如何通过视觉感知和语言理解来建立概念。由于视觉和词汇语义之间的差异，导致语义鸿沟问题，本文提出了一种通用的、非领域特定的方法来强制实现视觉和词汇语义之间的一致性。

Abstract

We discuss two kinds of semantics relevant to computer vision (CV) systems - visual semantics and lexical semantics. While →

computer vision visual semantics lexical semantics semantic gap problem alignment methodology

发现论文，激发创造

自我中心的分层视觉语义

本文提出了一种算法，通过递归识别物体的视觉属于和视觉特征来实现物体识别，从而实现了基于词义层次结构的物体识别，进一步推动了人机交互的研究。

May, 2023

视听概念系统的跨模态对齐学习

本文提出了学习与婴儿词汇学习机制相似的视觉 - 语言概念系统的方法，包括了在线学习视觉对象和词汇之间的关联以及自监督学习的语义表示等。作者在目标词与词语匹配以及零样本学习任务中进行了定量和定性检验，结果表明该模型在性能方面优于其他基础模型并实现了概念系统的拓扑对齐。

Jul, 2022

图像语义和语法序列学习导向

通过引入 “图像语法” 的概念，结合卷积神经网络和视觉变换器，我们提出了一个两阶段的弱监督学习方法，利用深度聚类和特征细化生成部分 - 语义分割，并结合双向长短时记忆模块处理语义分割补丁序列以捕捉图像语法，实现了对图像补丁损坏的准确检测，在多种语义和句法损坏场景中，验证了我们的框架在 Celeb 和 SUNRGBD 数据集上能够实现 70% 到 90% 的语法验证准确度。

Jan, 2024

动词语义学与词汇选择

本文关注计算机系统中动词的语义表示及其对机器翻译中词汇选择问题的影响，提出了一种新的表示模式，与基于知识的机器翻译方法（KBMT）密切相关，并可作为现有系统的一个独立组件。此方案表现出能够对不精确匹配的情况正确地进行词汇选择。

Jun, 1994

看见无形：对静态图像中的自动高层次视觉理解的调查

计算机视觉领域的研究论文针对抽象社会概念检测问题，通过对高层视觉理解和计算机视觉任务的研究和聚类，提供了对抽象概念识别的系统回顾。

Aug, 2023

通过保留视觉主要语义实现图像文本检索

本文提出了一种语义优化方法，称为视觉语义损失（VSL），以辅助模型专注于图像的主要内容，通过对图像的注释文本的利用，减少次要内容的负面影响，通过两个基准数据集（MSCOCO 和 Flickr30K）的大量实验，证明了该方法的卓越性能。

Apr, 2023

从平行文本和视觉语料库中自动发现概念

本文提出了一种利用文本语料库和视觉语料库进行自动可视化概念发现的算法，该算法基于关联图像的视觉判别力自动筛选文本术语，并使用视觉和语义相似性将其分组成概念。通过双向图像和句子检索任务和图像标记任务说明了所发现概念的应用，结果表明发现的概念不仅显著优于几个大型手动选择的概念集，而且在检索任务中也取得了最先进的性能。

Sep, 2015

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

利用语言建模识别和解释非对齐的人类概念表示

先通过有监督的表示对齐方法确定两组个体是否共享某一类别的基础，然后解释了它们在哪些方面存在差异；探究了先天性失明对非感知和感官相关的语言领域的词汇意义改变以及相关的语义转变；利用 GloVe 语言模型和线性探测分析揭示了盲人与视觉人群对动作、视觉、触觉相关动词以及跨感官知识获取动词的概念语义的差异。

Mar, 2024

超越视觉线索：同步探索面向目标的语义用于视觉 - 语言追踪

这篇研究论文介绍了一种新颖的追踪器，通过逐步探索目标中心语义来进行视觉 - 语言追踪，其中包括两个关键模块：目标增强模块（TEM）和语义感知模块（SAM），并采用密集匹配损失以增强多模态表示学习。实验证明了该方法的优越性和有效性。

Nov, 2023