提出了一种短语评论模型,可用于细粒度分类决策的可解释人工智能代理,通过使用反转短语作为负样本进行训练,提高了生成解释的文本质量,并能检测并纠正在句子中的错误短语,有效提高解释生成的可靠性。
Jul, 2018
通过采用注意力机制来重构给定的短语,本论文提出了一种新的接近无监督学习的方法来学习 grounding,该方法不需要太多的地面实时监督,有效提高了在 Flickr 30k 实体数据集上的表现。
Nov, 2015
通过在图像环境中关联文字和短语到图像区域,本文提出了一个框架来共同研究任务表现和短语的关联,并提出了三个基准来研究二者之间的关系。我们的研究结果显示,现有模型在关联短语和解决任务方面存在不一致性。我们展示了如何通过对关联短语注释进行穷举式训练来解决这个问题,并分析了它所产生的动态性。
Sep, 2023
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
使用视觉与语言模型、视觉解释方法和近义词进行微调,目标是提高定位能力和对象高亮质量。在多个数据集中,通过该方法相较于基线方法和之前的工作获得了显著的改进。
Dec, 2023
提出了一种基于弱监督学习的电影描述模型,通过学习角色的可视外观和描述之间的关系来实现角色地位的划分,该模型不仅提高了生成描述的质量,还实现了角色定位,局部共指分辨率,并在 MPII 电影描述数据集上进行了评价。
Apr, 2017
本文介绍了一种通过优化单词 - 区域关注力最大化互信息的方法来学习短语定位,该方法通过利用经过语言模型引导的单词替换来构建有效的负面标题进行训练,进而实现对 CO-Captions 数据集的短语 grounding,使精度提高了 5.7%。
Jun, 2020
本研究提出了一种基于 transformer 的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
Apr, 2022
本文提出了一种基于自然语言监督的跨模态领域泛化方法,利用视觉和文本交互的表征来实现高级别类别判别的信息融合,并使用可解释的模型来生成解释,从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。
Jul, 2022
提出了一种新的深度学习视觉识别模型,可根据可见物体的特征进行分类,并生成解释说明预测标签的原因,该模型使用了一种基于采样和强化学习的新型损失函数,能够生成与现有描述方法不同的描述结果。
Mar, 2016