图像字幕紧凑双向 Transformer
本研究提出了一种端到端可训练的深度双向 LSTM 模型,用于图像字幕生成,增加了数据增强技术,并在三个基准数据集上进行了评估,证明其性能竞争力强。
Apr, 2016
本文提出了一种基于 Transformer 的图像描述模型,使用 SwinTransformer 提取网格级特征,一阶段完成训练并实现 end-to-end 生成描述,得到了 MSCOCO 数据集上 state-of-the-art 的表现。
Mar, 2022
本文探讨利用类人认知风格,即建立对要描述的图像和构建的句子的整体认知来提高计算机图像理解能力。针对现有模型生成句子时没有考虑后续单词对整个句子生成的影响,本文首先提出了一种利用双向 LSTM 的相互援助网络结构(MaBi-LSTMs),以获取整体上下文信息。其次,为了提高跨领域模型生成更高质量的句子,我们进一步开发了跨模态注意机制来修饰两个句子,通过融合其显著部分以及图像的显著区域。在 Microsoft COCO 数据集上的实验结果表明,该模型改善了编码器解码器模型的性能,并取得了最先进的结果。
Oct, 2019
本研究通过双向字幕法对放射学报告进行预训练,与对比性训练方法相比,表明字幕法预训练不仅可以产生具有竞争力的视觉编码器,还可以生成具有临床相关性的报告和针对性的交互性输出。
Oct, 2023
利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述,这种方法能够同时捕捉到图像内部和图像与文本之间的关系,相较于业内先前方法显著提升了效果,是图像描述任务的最新成果。
May, 2019
本研究提出了 CaPtion TransformeR (简称 CPTR)这一基于序列到序列(sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同,本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模,并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性,本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。
Jan, 2021
本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer,它通过适应图片的结构提高了自动图像描述的性能,并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。
Apr, 2020
在学习图像压缩框架中,上下文模型在捕捉潜在表示之间的依赖关系方面起到关键作用。为了减少串行自回归上下文模型导致的解码时间,提出了并行上下文模型作为一种替代方法,在解码阶段只需要两个传递,从而方便实现真实场景中的高效图像压缩。然而,由于其不完整的因果上下文,会导致性能下降。针对这个问题,我们对现有的并行上下文模型中观察到的性能下降进行了深入分析,着重从信息的数量和质量两个方面进行研究。基于此分析,我们提出了基于角到中心的变压器上下文模型 (C^3M),旨在增强上下文和潜在预测,并提高速率 - 失真性能。具体来说,我们利用基于对数的预测顺序,逐步从角到中心预测更多的上下文特征。此外,为了扩大分析和合成变换中的感受野,我们在编码器 / 解码器中使用了长程交叉注意力模块 (LCAM),通过在不同通道中分配不同的窗口形状来捕捉远程语义信息。广泛的实验评估表明,所提出的方法是有效的,并且优于最先进的并行方法。最后,根据主观分析,我们建议在基于变压器的图像压缩中改进细节表示是一个值得探索的方向。
Nov, 2023
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018