基于分块对齐和词汇限制的自然语言解释视觉蕴涵

MMJul, 2022

基于分块对齐和词汇限制的自然语言解释视觉蕴涵

Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations

Qian Yang, Yunxin Li, Baotian Hu, Lin Ma, Yuxing Ding...

TL;DR本文提出了一种名为 CALeC 的方法，旨在解决语言和图像理解中，以前的方法在语义和各种特征之间的对齐上存在问题，其包括一个基于块意识和词汇约束的生成器和一个基于关系的推理网络，用于提高视觉语言理解的精确度和生成的解释的质量。在三个数据集的广泛实验中，CALeC 明显优于其他竞争模型，可以准确推断出 text-image 对之间的关系并生成解释。

Abstract

visual entailment with natural language explanations aims to infer the relationship between a text-image pair and generate a sentence to explain the decision-making process. Previous methods rely mainly on a pre-

visual entailment natural language explanations chunk-aware alignment lexical constraint relation inference

发现论文，激发创造

视觉蕴涵：一种精细图像理解的新任务

本文介绍了一个新的推理任务 Visual Entailment（VE），并构建了一个数据集 SNLI-VE，用于评估已有的 VQA 基线和构建了一个名为 EVE 的模型来解决 VE 任务，这个模型达到了 71% 的准确率并展示了 EVE 通过跨模态注意力可解释性的效果。

Jan, 2019

逻辑受限指针网络：用于可解释的文本相似度

研究一种使用 BERT 表示组成部分的句子的模型，结合指针网络和 ConceptNet 等知识，实现对文本语义相似性的可解释性分析。实验结果表明，该模型在 chunk alignment 任务上取得了显著的性能提升。

Jul, 2020

跨模态注意力一致性正则化用于视觉语言关系对齐

通过跨模态注意力实现多模态视觉语言模型中的关系级对齐，进而改进现有最优方法并克服了标准测评指标中的组合泛化困境。

Dec, 2022

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

运用多层对比学习在 VQA 中实现更加忠实的自然语言解释

为了解决 VQA-NLE 模型在逻辑推理、事实一致性和语义扰动不敏感性等方面存在的问题，我们提出了一种基于自监督多层对比学习的自然语言解释模型 (MCLE)，通过提取具有辨别性的特征并将解释的特征空间与视觉问题和答案对齐，生成更一致的解释。我们通过广泛的实验、消融分析和案例研究来证明我们方法的有效性。

Dec, 2023

基于视觉语言模型的字幕评估方法及其视觉上下文提取

通过提取和组织图像的详细内容，包括物体、属性和关系，我们的方法将人类编写的参考文本替换为视觉上下文，并帮助视觉语言模型更好地理解图像，从而提高图像标题评估性能，并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训练评估指标，并且在与人类判断方面呈现出卓越的一致性。

Feb, 2024

对图像字幕生成所需的语言单词与视觉语义单位进行对齐

本文提出了一种结合图卷积网络（GCN）的视觉语义单元对象相互作用的图形语义和几何建模方法，利用上下文门控注意力模块将当前单词与视觉语义单元对齐，针对 MS-COCO 图像字幕数据集，与现有方法相比报告了更好的结果。

Aug, 2019

上下文中的词汇推断语言模型

该研究利用基于预训练语言模型的方法探究了语义词汇判断任务，并通过构建几个模型在该任务上取得了新的最优结果。

Feb, 2021

基于共识感知的视觉 - 语义嵌入用于图像 - 文本匹配

本文提出一种共识感知的视觉 - 语义嵌入模型（CVSE），以将共识信息，即图像文字的基础知识，融入到图像 - 文本匹配中，并通过构建概念相关性图来实现共识信息的利用，以及通过实例级表示为两种模态学习图像和文本之间的关联和对准。实验表明，相较于先进的方法，利用共识信息对构建更有意义的视觉 - 语义嵌入具有优越的性能，特别是在双向图像和文本检索任务上。

Jul, 2020

S3C: 基于自严格学习的半监督 VQA 自然语言解释

通过自评奖励来改善回答和理由之间的逻辑一致性，我们提出了一种新的基于自举学习的半监督 VQA 自然语言解释模型 (S3C)，克服了 VQA 自然语言解释过程中逻辑不一致性和人工标注解释困难的挑战，获得了最新的最优表现。

Sep, 2023