半渗透最大似然估计法学习图像描述生成

Jun, 2023

半渗透最大似然估计法学习图像描述生成

Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation

Zihao Yue, Anwen Hu, Liang Zhang, Qin Jin

TL;DR本文介绍了 Semipermeable MaxImum Likelihood Estimation (SMILE) 模型，该模型允许富度优化而阻止简洁度优化，从而鼓励模型生成更多细节的长字幕。实验证明，SMILE 显着提高了生成字幕的描述性。

Abstract

image captioning aims to describe visual content in natural language. As 'a picture is worth a thousand words', there could be various correct descriptions for an image. However, with maximum likelihood estimation

image captioning maximum likelihood estimation smile richness optimization conciseness optimization

发现论文，激发创造

DreamLIP：长描述文本的语言 - 图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

图像字幕的语言模型：习惯和奏效

该研究比较了不同的语言模型方法在图像字幕生成中的优缺点，并使用与众不同的语言模型方法，结合这些方法在 COCO 数据集上取得了新的记录性能。

May, 2015

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

图像标题的情感背景评估

通过图像的标题生成以及使用大型语言模型（LLMs）进行推理的方法，该论文探讨了 LLMs 是否可以支持上下文情感估计任务，并表明 GPT-3.5 模型在情感预测方面具有潜力。

Sep, 2023

CLAIR: 使用大型语言模型评估图像标题

CLAIR 是一种新颖方法，利用大型语言模型（LLMs）的零 - shot 语言建模能力来评估候选图像标题，与现有方法相比，CLAIR 在与人类判断相符的标题质量方面表现出更强的相关性，能够清晰解读结果与其分配的分数背后的推理过程。

Oct, 2023

基于跨模态相似性的课程学习在图像描述中的应用

该研究提出一种基于跨模态相似性的难度度量方法，用于图像字幕生成模型的训练，并在 COCO 和 Flickr30k 数据集上验证了其有效性，证明其在难样本和未见数据上表现出较高的泛化能力。

Dec, 2022

展示并告诉：神经图像字幕生成器

本文提出了基于深度递归架构的生成模型，结合计算机视觉和机器翻译的最新进展，将图像描述为自然语言的句子，实验结果表明了模型的准确性和流畅性。

Nov, 2014

卷积图像描述

本文提出了一种卷积图像字幕生成技术，并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能，同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析，提出了卷积语言生成方法的有力证据。

Nov, 2017

序列型演员 - 评论家算法在图像字幕生成中的应用

本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法，通过计算每个 token 的优势和值实现直接优化语言质量指标，取得了在 MSCOCO 数据集上的最先进性能。

Jun, 2017