使用注意力机制的紧凑型图像标注模型
我们的项目旨在通过开发结合卷积神经网络(CNN)和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较,研究了多种预训练 CNN 模型的性能变化,并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合,旨在在更节省资源的同时保持模型的有效性。
Apr, 2024
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018
SmallCap 是一个轻量且快速的图像字幕生成模型,它通过用与目标图像相关的字幕在数据存储中进行训练,而无需对模型进行额外的微调以实现跨域迁移学习,同时避免了扩大模型规模的开销。
Sep, 2022
本文介绍了一种通过原型记忆模型,在处理其他训练样本时,可以执行对激活进行注意力操作的网络,并通过 COCO 数据集上的实验进行了评估。
Aug, 2023
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案,探索了自然语言的组成和顺序性,选择性地关注输入图像中每个检测到的对象的不同模块,以包括计数和颜色等特定描述,提出模型优于现有模型,结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。
Jul, 2020
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017
有关大规模视觉语言数据集的筛选方法在数据集大小和质量之间进行权衡,而即使是可用的最高质量的筛选标题也远远不足以捕捉图像中丰富的视觉细节。
Dec, 2023
本文介绍了一种名为 “基于委员会共识的图像字幕生成”($IC^3$)的新方法,该方法通过多个视角捕捉高级细节并生成单个字幕,人们评价 $IC^3$ 生成的字幕的有帮助程度至少与基准 SOTA 模型相同,并且 $IC^3$ 字幕可以将最先进的自动召回系统的性能提高高达 84%,这表明 $IC^3$ 是一个可以改进现有视觉描述的方法。
Feb, 2023
本文提出了一种有效的两阶段框架,用于压缩大型预训练双编码器,以实现轻量级文本图片检索,其结果模型较小(原始的 39%),处理图像 / 文本的速度快(分别为 1.6x / 2.9x),在 Flickr30K 和 MSCOCO 基准测试中表现不输于原始完整模型,并且我们也开源了一个逼真的移动图像搜索应用程序。
Apr, 2022