Oct, 2023

预训练的 CNN 与基于 GRU 的注意力机制在图像标题生成中的比较研究

TL;DR使用深度神经网络和 GRU 注意机制对图像进行描述生成的研究提出了一种深度神经网络框架,通过多个预训练的卷积神经网络作为编码器从图像中提取特征,并使用 GRU 语言模型作为解码器生成描述性句子。通过将 Bahdanau 注意模型与 GRU 解码器集成,我们的方法提高了性能,并在 MSCOCO 和 Flickr30k 数据集上展示出与最先进方法相比具有优势的分数。我们提出的框架可以弥合计算机视觉和自然语言之间的差距,并可以扩展到特定领域。