对齐视觉和词汇语义
本文提出了学习与婴儿词汇学习机制相似的视觉 - 语言概念系统的方法,包括了在线学习视觉对象和词汇之间的关联以及自监督学习的语义表示等。作者在目标词与词语匹配以及零样本学习任务中进行了定量和定性检验,结果表明该模型在性能方面优于其他基础模型并实现了概念系统的拓扑对齐。
Jul, 2022
通过引入 “图像语法” 的概念,结合卷积神经网络和视觉变换器,我们提出了一个两阶段的弱监督学习方法,利用深度聚类和特征细化生成部分 - 语义分割,并结合双向长短时记忆模块处理语义分割补丁序列以捕捉图像语法,实现了对图像补丁损坏的准确检测,在多种语义和句法损坏场景中,验证了我们的框架在 Celeb 和 SUNRGBD 数据集上能够实现 70% 到 90% 的语法验证准确度。
Jan, 2024
本文关注计算机系统中动词的语义表示及其对机器翻译中词汇选择问题的影响,提出了一种新的表示模式,与基于知识的机器翻译方法(KBMT)密切相关,并可作为现有系统的一个独立组件。此方案表现出能够对不精确匹配的情况正确地进行词汇选择。
Jun, 1994
本文提出了一种语义优化方法,称为视觉语义损失(VSL),以辅助模型专注于图像的主要内容,通过对图像的注释文本的利用,减少次要内容的负面影响,通过两个基准数据集(MSCOCO 和 Flickr30K)的大量实验,证明了该方法的卓越性能。
Apr, 2023
本文提出了一种利用文本语料库和视觉语料库进行自动可视化概念发现的算法,该算法基于关联图像的视觉判别力自动筛选文本术语,并使用视觉和语义相似性将其分组成概念。 通过双向图像和句子检索任务和图像标记任务说明了所发现概念的应用,结果表明发现的概念不仅显著优于几个大型手动选择的概念集,而且在检索任务中也取得了最先进的性能。
Sep, 2015
本文提出了一种基于图像字幕生成的新型探测方法,用于研究视觉语言预训练模型中跨模态语义对齐的内部机制,发现 VLP 模型对齐的主要是对象和视觉词,忽略了全局语义,还存在固定的句子模式,无视语法和流畅性等问题。
Oct, 2022
先通过有监督的表示对齐方法确定两组个体是否共享某一类别的基础,然后解释了它们在哪些方面存在差异;探究了先天性失明对非感知和感官相关的语言领域的词汇意义改变以及相关的语义转变;利用 GloVe 语言模型和线性探测分析揭示了盲人与视觉人群对动作、视觉、触觉相关动词以及跨感官知识获取动词的概念语义的差异。
Mar, 2024
这篇研究论文介绍了一种新颖的追踪器,通过逐步探索目标中心语义来进行视觉 - 语言追踪,其中包括两个关键模块:目标增强模块(TEM)和语义感知模块(SAM),并采用密集匹配损失以增强多模态表示学习。实验证明了该方法的优越性和有效性。
Nov, 2023