显式图像标题编辑
Diffusion-based Explicit Caption editing (DECap) is proposed as a method to refine reference captions by formulating the task as a denoising process, enabling strong generalization ability and improving the quality and controllability of caption generation.
Nov, 2023
本文提出了一种基于迭代自适应改进现有标题的图像字幕生成的新方法,该方法包括两个子模块:一个具有自适应复制机制和选择性复制存储器注意机制的语言模块 EditNet 和一个基于 LSTM 的去噪自编码器 DCNet,实验表明我们的方法在 MS COCO 数据集上取得了最先进的性能。
Mar, 2020
通过提出名为 E4C 的零样本图像编辑方法,我们在保留源图像内容的同时,通过推理阶段优化来显式增强可编辑性和文本对齐,实现了有效解决现有方法中存在的文本对齐问题,并在广泛的编辑任务中表现良好。
Mar, 2024
本文介绍了一种基于 Transformer 的图像描述模型 ——CaMEL,其包含两个相互连接的语言模型,采用知识蒸馏的均值教师学习方法,采用不同视觉特征提取器进行评估,结果表明该模型在 COCO 数据集上取得了最先进的结果。
Feb, 2022
该研究提出了一种端到端模型,用于为嵌入新闻文章的图像生成标题。该模型采用多模态,多头注意力机制,结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题,并在 CIDEr 评分上实现了当前最高水平的四倍提升。
Apr, 2020
本论文提出了一种名为 TIGEr 的新度量标准,用于自动评估图像标题生成系统,该度量标准不仅基于标题对图像内容的表现,还基于机器生成的标题与人生成的标题匹配程度;经实验测试,TIGEr 与人类判断的一致性要比其他度量标准更高,同时也通过人员评分与度量分数的相关性全面评估了该度量标准的有效性。
Sep, 2019
本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer,它通过适应图片的结构提高了自动图像描述的性能,并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。
Apr, 2020
提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题,该模型通过填充来自于 hashtags 的具体命名实体,使得生成的基于输入图像的模板描述信息更加丰富,实验结果表明该模型在多种评价指标上显著优于单模态基准线。
Apr, 2018