文本蕴含基础
该研究论文通过逻辑表征作为文本和图像的统一意义表征,并提出了一种无监督的多模态逻辑推断系统,可有效证明它们之间的推理关系,结合语义分析和定理证明,系统可以处理语义复杂的视觉 - 文本推断。
Jun, 2019
本论文提出了一种多模态蕴含分类器来确定图像的语句,以及开发了一种通用可调节学习速率策略来教授一个检索模型区分这些蕴含的语句和其他负样本。在实验中,我们手动注释了一个蕴含更正的图像文本检索数据集用于评估。结果表明,所提出的蕴含分类器达到了约 78% 的准确度,并持续提高了图像文本检索基线的性能。
Aug, 2022
本文介绍了一项新的推理任务 - 视觉蕴含(Visual Entailment,VE),VE 与传统的文本蕴含(Textual Entailment,TE)任务不同,它的前提是由图像定义的,而不是像 TE 任务中那样由自然语言句子定义的。在 Stanford 自然语言推理语料库和 Flickr30k 的基础上,提出了一个新的数据集 SNLI-VE,并介绍了一种可解释的视觉蕴含模型(EVE)来解决 VE 问题。此外,本文还将 EVE 和其他几种最先进的基于视觉问答(VQA)的模型在 SNLI-VE 数据集上进行了评估,促进了基于语境的语言理解,并提供了关于现代 VQA 模型性能的见识。
Nov, 2018
本文提出了一种新的基于阈值的语义文本表示方法,并结合机器学习算法应用语义和词汇特征对文本 - 假设对进行分类,该技术有效地丰富了文本的语义信息,在文字蕴涵分类任务中在意义理解方面的表现明显优于已知方法
Oct, 2022
本文旨在利用图像丰富文本语义模型,以更好地捕捉词汇意义的认知方面,并通过大型启动实验展示在视觉基础词嵌入中添加视觉信息的预测性能更好,其中与人类单词相似性的相关性也更高,并展示了视觉基础嵌入可以捕捉到仅使用纯文本不能提取的信息。
Feb, 2022
本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中,以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题,作者还提出了两个新的目标,来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。
Feb, 2020
本文从计算认知语言学的角度探讨了多模态语义表示中的基础问题,注释和分析了五个感知属性:可操作性、感知显著性、物体数量、凝视引导和生态学生态位关联。我们对来自 Flickr30k 数据集的选定图像进行了探究性分析和统计建模,发现了在构建过程中,观看者将情境意义和可操作性与多模态语义统合到一起,而这些因素被巩固为包含视觉和文本元素的图像文字数据集中的影像字幕。本研究显示情境意义和可操作性基础对于理解系统生成适当回应至关重要,并有潜力推动人类对不同情境下的构造的理解。
May, 2023
本文研究了使用子树级别的 attention 模型进行文本蕴含任务,相比基于硬对齐和逻辑的传统模型具有更强鲁棒性和更高准确度,并且扩展 attention 模型到树节点可以更好地利用语法和递归信息提高准确度。
Jan, 2017
本文介绍了一个新的推理任务 Visual Entailment(VE),并构建了一个数据集 SNLI-VE,用于评估已有的 VQA 基线和构建了一个名为 EVE 的模型来解决 VE 任务,这个模型达到了 71% 的准确率并展示了 EVE 通过跨模态注意力可解释性的效果。
Jan, 2019
本文提出了一种采用文本蕴含来找到共享常识知识图谱节点之间的隐式蕴含关系的方法,以有效地增加相同概念类中节点之间连接的子图密度,从而提高 CSKG 完成任务的性能。
Feb, 2024