图像字幕生成中的引导解码学习
基于图像的标题生成任务中,我们展示了通过微调自回归标题模型来生成更具体的标题,并且在解码过程中应用语言模型指导,从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。
Jul, 2023
本文提出了一种基于条件生成对抗网络的图像描述框架,添加了 “辨别器” 网络去逐步判断生成的描述是人类描述还是机器生成的,该算法是通用的,能够提高任何现有的基于 RL 的图像描述框架,实验表明,这种方法在不同的语言评估指标上有一致的改进。
May, 2018
该研究提出了一种扩展的编码器 - 解码器框架 - 评论网络,通过对编码器隐藏状态进行多次注意力机制的评论步骤来输出思维向量,并将这些思维向量作为解码器中的注意力机制的输入,该框架在图像标题和源代码标题两个任务上表现优于现有的编码器 - 解码器系统。
May, 2016
我们的项目旨在通过开发结合卷积神经网络(CNN)和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较,研究了多种预训练 CNN 模型的性能变化,并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合,旨在在更节省资源的同时保持模型的有效性。
Apr, 2024
本文提出了一种粗到细的多阶段图像字幕预测框架,利用多个解码器,每个解码器在前一阶段的输出上操作,产生越来越精细的图像描述,优化模型的方法采用了一种强化学习方法,通过利用每个中间解码器的测试推理算法的输出,同时解决了暴露偏差问题和损失评估不匹配的问题,对 MSCOCO 进行广泛评估,并表明我们的方法可以实现最先进的性能。
Sep, 2017
本研究旨在利用预先训练的卷积神经网络,结合注意力机制和循环神经网络,将图像特征与语言模型相结合,实现图像描述生成。实验结果与现有先进方法相比,具有竞争性的性能。
Mar, 2022
本文介绍了一种新的图像字幕生成框架,利用决策制定的方式,使用多种神经网络和加强学习算法协同生成字幕,并在 Microsoft COCO 数据集上表现良好。
Apr, 2017
本研究提出了一种基于引导式深度解码器网络的通用先验,该网络由一个利用引导图像的多尺度特征的编码器 - 解码器网络和一个生成输出图像的深度解码器网络组成,并通过特征细化单元将引导图像的多尺度特征嵌入深度解码器网络,允许网络参数在无监督学习的情况下进行优化,实现了多种图像融合问题的最新性能。
Jul, 2020