基于神经模型的图像标题增强

Dec, 2023

Enhancing Image Captioning with Neural Models

Pooja Bhatnagar, Sai Mrunaal, Sachin Kamnure

TL;DR本研究使用深度学习模型来探索神经图像字幕生成的领域，研究不同的神经网络架构配置，重点关注注入架构，并提出了一种新的质量度量标准来评估字幕生成。通过广泛的实验和分析，本研究揭示了图像字幕生成中的挑战和机遇，深入洞察了模型行为和过度拟合问题。结果显示，尽管合并模型具有更大的词汇量和更高的 ROUGE 分数，注入架构生成相关而简洁的图像字幕。研究还强调了优化训练数据和超参数以提高模型性能的重要性。本研究为神经图像字幕生成领域的日益增长的知识体系做出了贡献，鼓励进一步探索该领域，强调了人工智能的民主化。

Abstract

This research explores the realm of neural image captioning using deep learning models. The study investigates the performance of different neural architecture configurations, focusing on the inject architecture,

neural image captioning deep learning models neural architecture configurations inject architecture caption generation

发现论文，激发创造

使用深度神经网络架构进行图像字幕生成

该文讨论了图像字幕生成的各种模型，描述了对象识别和机器翻译的进展以及如何实现该模型，最后使用标准评估矩阵评估了该模型的性能。

Jan, 2018

面向图像标注的检索增强架构

通过利用外部的 kNN 内存来改善生成过程，本研究提出了两个模型变体，这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法，证明了显式外部存储器的纳入可以显著提高标题的质量，尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。

May, 2024

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

图像标题生成器中的图像放置位置

本文研究了用于字幕生成的循环神经网络语言模型中，将图像信息直接融入 RNN 或在 RNN 之后融合图像信息的两种不同的结构。研究表明，采用哪种结构对性能并没有太大影响，但融合结构可以使 RNN 的隐藏状态向量缩小多达四倍。因此，多模态集成应该推迟到随后的阶段进行。

Mar, 2017

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

基于 CNN 编码器 - 解码器框架的压缩图像字幕生成

我们的项目旨在通过开发结合卷积神经网络（CNN）和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较，研究了多种预训练 CNN 模型的性能变化，并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合，旨在在更节省资源的同时保持模型的有效性。

Apr, 2024

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。

May, 2023

图像字幕的语言模型：习惯和奏效

该研究比较了不同的语言模型方法在图像字幕生成中的优缺点，并使用与众不同的语言模型方法，结合这些方法在 COCO 数据集上取得了新的记录性能。

May, 2015

检索增强转换器用于图像字幕生成

本论文中，我们研究了一种基于 kNN 记忆的图像字幕生成方法，其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明，采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。

Jul, 2022

展示并告诉：神经图像字幕生成器

本文提出了基于深度递归架构的生成模型，结合计算机视觉和机器翻译的最新进展，将图像描述为自然语言的句子，实验结果表明了模型的准确性和流畅性。

Nov, 2014