带因果干预的依赖式多任务学习在图像字幕生成中的应用

IJCAIMay, 2021

带因果干预的依赖式多任务学习在图像字幕生成中的应用

Dependent Multi-Task Learning with Causal Intervention for Image Captioning

Wenqing Chen, Jidong Tian, Caoyun Fan, Hao He, Yaohui Jin

TL;DR本文提出了一种基于因果干预的依赖多任务学习框架（DMTCI）来解决图像描述生成过程中出现的问题，该框架采用包含类别生成、因果计算和多智能体强化学习策略来提高模型对视觉特征的理解和生成句子的一致性及信息性。实验结果表明，DMTCI 模型优于基准模型，并达到了与最先进模型相媲美的性能。

Abstract

Recent work for image captioning mainly followed an extract-then-generate paradigm, pre-extracting a sequence of object-based features and then formulating image captioning as a single sequence-to-sequence task.

image captioning multi-task learning causal intervention visual features reinforcement learning

发现论文，激发创造

使用视频和蕴含生成的多任务视频字幕生成

通过多任务学习模型，结合无监督视频预测和语言蕴涵生成任务，共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示，显著提高视频字幕生成的性能，达到了多个标准数据集的最新水平。

Apr, 2017

来自上下文无关监督的上下文感知字幕

本文针对图像生成环境下的语境问题，提出了一种关键词区分的图像描述生成方法，该方法不需要针对每个具体图像进行训练，可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示，该方法在区分性描述上优于基准生成型和发话人 - 听众型方法。

Jan, 2017

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

去混淆化的图片字幕生成：一项因果回顾研究

本文提出了一种基于因果推断的新颖视角：去混淆图像标题（DIC），给出了 DICv1.0 框架，并在 MS-COCO 数据集的 Karpathy 和在线分裂上展示了 DICv1.0 的改进：两个流行的标题模型分别达到了单模型的 130.7 CIDEr-D 和 128.4 c40 CIDEr-D，为图像标题提供了有前途的方向。

Mar, 2020

MAT: 图像字幕的多模态注意力翻译器

通过序列到序列的循环神经网络模型，从图像中提取对象序列并引入顺序注意力层，将图像的顺序信息自然地转化为单词序列，在 MS COCO 数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。

Feb, 2017

通过因果关系的角度准确利用标签依赖进行多标签文本分类

使用反事实文本分类器（CFTC）通过阻止相关性偏见来消除标签依赖引起的预测偏见。实验证明，我们的 CFTC 在数据集上明显优于基准模型并有效消除了相关性偏见。

Oct, 2023

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022

利用多任务学习增强多标签文本分类中的标签相关反馈

通过引入多任务学习和标签相关性反馈机制来增强标签相关性学习，其中采用文档 - 标签交叉注意力机制来生成一个更具有区分度的文档表示，以及两个辅助标签共现预测任务来增强标签相关性学习，实验结果表明，我们的方法在 AAPD 和 RCV1-V2 数据集上优于竞争性基线方法。

Jun, 2021

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

MCF-VC: 缓解多模态视频描述中的类递增学习中的灾难性遗忘

解决视频字幕生成中的灾难性遗忘问题，通过细粒度敏感度选择和两阶段知识蒸馏方法，有效保持模型在新老任务上的性能。

Feb, 2024