使用注意力机制的紧凑型图像标注模型

Mar, 2019

使用注意力机制的紧凑型图像标注模型

COMIC: Towards A Compact Image Captioning Model with Attention

Jia Huei Tan, Chee Seng Chan, Joon Huang Chuah

TL;DR本文提出了一种名为 COMIC 的紧凑型图像字幕生成模型，其嵌入词汇表长度比现有方法小 39-99 倍，但在五个常见的评估指标上在 MS-COCO 和 InstaPIC-1.1M 数据集上达到了与最先进方法相当的结果。

Abstract

Recent works in image captioning have shown very promising raw performance. However, we realize that most of these encoder-decoder style networks with attention do not scale naturally to large →

image captioning encoder-decoder vocabulary size compactness comic

发现论文，激发创造

基于 CNN 编码器 - 解码器框架的压缩图像字幕生成

我们的项目旨在通过开发结合卷积神经网络（CNN）和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较，研究了多种预训练 CNN 模型的性能变化，并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合，旨在在更节省资源的同时保持模型的有效性。

Apr, 2024

CNN+CNN：用于图像字幕生成的卷积解码器

本文在图像字幕生成方面，提出了一种仅利用卷积神经网络生成字幕的框架，通过并行计算，训练速度比基于 LSTM 的模型快 3 倍，同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。

May, 2018

SmallCap：轻量级图像字幕生成联合检索增强

SmallCap 是一个轻量且快速的图像字幕生成模型，它通过用与目标图像相关的字幕在数据存储中进行训练，而无需对模型进行额外的微调以实现跨域迁移学习，同时避免了扩大模型规模的开销。

Sep, 2022

借助过去的一点点帮助：用于图像字幕的原型记忆网络

本文介绍了一种通过原型记忆模型，在处理其他训练样本时，可以执行对激活进行注意力操作的网络，并通过 COCO 数据集上的实验进行了评估。

Aug, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

使用组合神经模块网络进行图像字幕生成

本文介绍了一种基于组合神经模块网络和分层框架的图像字幕方案，探索了自然语言的组成和顺序性，选择性地关注输入图像中每个检测到的对象的不同模块，以包括计数和颜色等特定描述，提出模型优于现有模型，结果表明我们的组成模块网络能够有效地生成准确和详细的图像字幕。

Jul, 2020

卷积图像描述

本文提出了一种卷积图像字幕生成技术，并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能，同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析，提出了卷积语言生成方法的有力证据。

Nov, 2017

一幅图片胜过 77 个文本标记：对密集字幕下的 CLIP 风格模型进行评估

有关大规模视觉语言数据集的筛选方法在数据集大小和质量之间进行权衡，而即使是可用的最高质量的筛选标题也远远不足以捕捉图像中丰富的视觉细节。

Dec, 2023

$IC^3$: 图像描述委员会共识

本文介绍了一种名为 “基于委员会共识的图像字幕生成”（$IC^3$）的新方法，该方法通过多个视角捕捉高级细节并生成单个字幕，人们评价 $IC^3$ 生成的字幕的有帮助程度至少与基准 SOTA 模型相同，并且 $IC^3$ 字幕可以将最先进的自动召回系统的性能提高高达 84％，这表明 $IC^3$ 是一个可以改进现有视觉描述的方法。

Feb, 2023

轻量级文本图像检索的两阶段模型压缩：更精简、更快速

本文提出了一种有效的两阶段框架，用于压缩大型预训练双编码器，以实现轻量级文本图片检索，其结果模型较小（原始的 39％），处理图像 / 文本的速度快（分别为 1.6x / 2.9x），在 Flickr30K 和 MSCOCO 基准测试中表现不输于原始完整模型，并且我们也开源了一个逼真的移动图像搜索应用程序。

Apr, 2022