本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法,通过计算每个 token 的优势和值实现直接优化语言质量指标,取得了在 MSCOCO 数据集上的最先进性能。
Jun, 2017
通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念,通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法,可以训练神经网络。在图像字幕任务中,我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果,并进一步表明,我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念,同时保持竞争性的 COCO 评估得分。
Jun, 2018
本文探讨了图标题问题,提出了一个基于 FigureQA 数据集的新数据集 FigCAP,同时提出了 Label Maps Attention 和 Relation Maps Attention 两种新型关注机制,以及采用强化学习进行序列级训练以优化评估指标,从而改善长标题的生成并在广泛实验中取得显著优于基线的表现,具有自动生成各种图形标签的巨大潜力。
Jun, 2019
本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法,并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明,使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题,并在推理时间非常快的同时,提供了对对象的详细理解。
Mar, 2018
本研究通过自我批判的序列训练 (SCST) 优化了图像说明系统,采用强化学习的政策梯度方法直接训练系统,并使用 MSCOCO 测试指标,使性能显著提高,实现了针对端到端系统直接优化非可微分度量的目标。
Dec, 2016
本文提出了一种粗到细的多阶段图像字幕预测框架,利用多个解码器,每个解码器在前一阶段的输出上操作,产生越来越精细的图像描述,优化模型的方法采用了一种强化学习方法,通过利用每个中间解码器的测试推理算法的输出,同时解决了暴露偏差问题和损失评估不匹配的问题,对 MSCOCO 进行广泛评估,并表明我们的方法可以实现最先进的性能。
Sep, 2017
本文提出一种基于时空图模型的视频字幕生成算法,利用物体间相互作用关系提供显式的视觉表征,通过一种对象感知的知识蒸馏机制,可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验,展示了我们方法的有效性和可解释性预测的竞争性能。
Mar, 2020
本文提出了一种新颖的分层强化学习框架,用于视频字幕生成,该框架让高级管理器模块学习设计子目标,低级工作模块识别基本动作以实现子目标,实验证明我们的方法在细粒度视频字幕生成方面优于其他基线方法,并在已广泛使用的 MSR-VTT 数据集上达到了最佳效果。
Nov, 2017
本文介绍了一种新的图像字幕生成框架,利用决策制定的方式,使用多种神经网络和加强学习算法协同生成字幕,并在 Microsoft COCO 数据集上表现良好。
Apr, 2017
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020