显式图像标题编辑

ECCVJul, 2022

Explicit Image Caption Editing

Zhen Wang, Long Chen, Wenbo Ma, Guangxing Han, Yulei Niu...

TL;DR本文介绍了一个新的任务：显式标题编辑，并提出了一种基于非自回归变压器的 ECE 模型 TIger。在两个 ECE 基准测试上的广泛实验表明 TIger 的有效性。

Abstract

Given an image and a reference caption, the image caption editing task aims to correct the misalignment errors and generate a refined caption. However, all existing caption editing works are implicit models, ie, they directly produce the refined captions without explicit connections to

image caption editing explicit caption editing tiger model non-autoregressive transformer ece benchmarks

发现论文，激发创造

DECap: 通过扩散机制实现广义显式标题编辑

Diffusion-based Explicit Caption editing (DECap) is proposed as a method to refine reference captions by formulating the task as a denoising process, enabling strong generalization ability and improving the quality and controllability of caption generation.

Nov, 2023

展示、编辑、描述：一种编辑图像标题的框架

本文提出了一种基于迭代自适应改进现有标题的图像字幕生成的新方法，该方法包括两个子模块：一个具有自适应复制机制和选择性复制存储器注意机制的语言模块 EditNet 和一个基于 LSTM 的去噪自编码器 DCNet，实验表明我们的方法在 MS COCO 数据集上取得了最先进的性能。

Mar, 2020

E4C: 通过高效的 CLIP 引导提升基于文本的图像编辑的可编辑性

通过提出名为 E4C 的零样本图像编辑方法，我们在保留源图像内容的同时，通过推理阶段优化来显式增强可编辑性和文本对齐，实现了有效解决现有方法中存在的文本对齐问题，并在广泛的编辑任务中表现良好。

Mar, 2024

观察和修改：用于图像字幕生成的修改网络

通过建模剩余信息并在每个时间步长决定保留、删除或添加已有语句，本研究提出了一种新的模型框架，能够成功地修改原有的内容从而提高评估分数。

Sep, 2019

将人类放入图像字幕循环中

通过人工反馈训练图像字幕模型，使其适应特定用户数据，并采用稀疏记忆重播组件避免灾难性遗忘，从而实现自定义图像字幕模型。

Jun, 2023

基于 Mean Teacher 的图像描述生成学习 (CaMEL)

本文介绍了一种基于 Transformer 的图像描述模型 ——CaMEL，其包含两个相互连接的语言模型，采用知识蒸馏的均值教师学习方法，采用不同视觉特征提取器进行评估，结果表明该模型在 COCO 数据集上取得了最先进的结果。

Feb, 2022

实体感知新闻图像标题生成

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态，多头注意力机制，结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题，并在 CIDEr 评分上实现了当前最高水平的四倍提升。

Apr, 2020

TIGEr: 图像文字链接用于图像描述语句评估

本论文提出了一种名为 TIGEr 的新度量标准，用于自动评估图像标题生成系统，该度量标准不仅基于标题对图像内容的表现，还基于机器生成的标题与人生成的标题匹配程度；经实验测试，TIGEr 与人类判断的一致性要比其他度量标准更高，同时也通过人员评分与度量分数的相关性全面评估了该度量标准的有效性。

Sep, 2019

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018