图像字幕的语言模型:习惯和奏效
本研究介绍了一种基于卷积神经网络的语言模型,适用于统计语言建模任务,在图像字幕生成中表现出竞争性能。相比以前的模型,它使用所有先前的单词进行训练,可以模拟历史单词的长期依赖性,这对图像字幕生成至关重要。该方法在 MS COCO 和 Flickr30K 两个数据集上进行了验证,实验结果显示,相较于基于循环神经网络的语言模型表现更佳,且具有竞争性的最先进技术。
Dec, 2016
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018
本文探讨利用类人认知风格,即建立对要描述的图像和构建的句子的整体认知来提高计算机图像理解能力。针对现有模型生成句子时没有考虑后续单词对整个句子生成的影响,本文首先提出了一种利用双向 LSTM 的相互援助网络结构(MaBi-LSTMs),以获取整体上下文信息。其次,为了提高跨领域模型生成更高质量的句子,我们进一步开发了跨模态注意机制来修饰两个句子,通过融合其显著部分以及图像的显著区域。在 Microsoft COCO 数据集上的实验结果表明,该模型改善了编码器解码器模型的性能,并取得了最先进的结果。
Oct, 2019
本研究旨在利用预先训练的卷积神经网络,结合注意力机制和循环神经网络,将图像特征与语言模型相结合,实现图像描述生成。实验结果与现有先进方法相比,具有竞争性的性能。
Mar, 2022
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017
本研究使用深度学习模型来探索神经图像字幕生成的领域,研究不同的神经网络架构配置,重点关注注入架构,并提出了一种新的质量度量标准来评估字幕生成。通过广泛的实验和分析,本研究揭示了图像字幕生成中的挑战和机遇,深入洞察了模型行为和过度拟合问题。结果显示,尽管合并模型具有更大的词汇量和更高的 ROUGE 分数,注入架构生成相关而简洁的图像字幕。研究还强调了优化训练数据和超参数以提高模型性能的重要性。本研究为神经图像字幕生成领域的日益增长的知识体系做出了贡献,鼓励进一步探索该领域,强调了人工智能的民主化。
Dec, 2023
通过序列到序列的循环神经网络模型,从图像中提取对象序列并引入顺序注意力层,将图像的顺序信息自然地转化为单词序列,在 MS COCO 数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。
Feb, 2017
本文提出了一个简单的模型,可以根据给定的图片生成相关的句子,它主要侧重于句子的语法,并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系,并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果,同时相对于最先进的模型而言,该方法更加简单。
Feb, 2015