StyleM: 基于对比 N-grams 构建的图像字幕风格化度量

Jan, 2022

StyleM: 基于对比 N-grams 构建的图像字幕风格化度量

StyleM: Stylized Metrics for Image Captioning Built with Contrastive N-grams

Chengxi Li, Brent Harrison

TL;DR本文提出了两个用于评估机器生成的标题和真实风格化标题之间关联的自动评估度量标准：OnlyStyle 和 StyleCIDEr。

Abstract

In this paper, we build two automatic evaluation metrics for evaluating the association between a machine-generated caption and a

automatic evaluation metrics machine-generated caption ground truth stylized caption association

发现论文，激发创造

多样式图像字幕的样式感知对比学习

本文提出了一种针对多风格图像字幕生成的样式感知对比学习的方法，该方法基于对潜在与风格相关的视觉内容的对比学习，提出了一个样式感知的视觉编码器以及三种检索方案。实验结果表明，该方法的性能达到了最先进水平。

Jan, 2023

SemStyle: 使用非对齐文本学习生成风格化图像标题

通过 SemStyle 模型，利用自然语言处理技术和语义框架生成语义和风格相符且与图片语义相关的题注，为从丰富的网络语言数据中学习更丰富的图像描述提供可能性。

May, 2018

重新评估图像字幕自动评估指标

本文通过一系列的实验，深入评估了现有的图像字幕度量，并探索了最近提出的 Word Mover's Distance（WMD）文档度量在图像字幕中的应用。结果表明，WMD 相比其他度量具有较强的优势。

Dec, 2016

随心所欲的视觉描述：由少量风格化句子引导的图像和视频描述

FS-StyleCap 是一个用于 Few-Shot Stylized Visual Captioning 的框架，通过训练样本生成相关风格的标题描述，其在自动评估中的结果优于现有方法，并且在处理多种风格方面具有能力。

Jul, 2023

StyleX: X 射线风格距离的可训练度量

通过利用简单的 Siamese 学习，我们引入了一种基于深度学习的度量方法来量化不匹配图像对之间的风格差异，利用训练无需任何显式的风格距离知识的编码器生成 X 射线图像风格表征。实验结果表明，我们的方法能够提供有意义且区分性强的风格表征，并能够准确地量化非匹配图像对之间的风格距离，为引导式风格选择和图像流程参数自动优化提供了一种有前景的技术。

May, 2024

样式生成：基于粗略匹配的图像合成

使用粗略匹配的文本作为引导，本研究介绍了一种新颖的基于文本的风格生成方法，通过两阶段的生成对抗网络生成与细化图像风格，并通过实验证实了该方法的有效性和实际应用价值。

Sep, 2023

学习评估图像字幕生成

提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Jun, 2018

一张图片相当于五个句子吗？对于图像 - 文本匹配的语义进行新的探究

本文提出了两种关联度度量指标，并提出一种新的策略用于定义语义自适应边缘，并将其用于标准三元组损失函数的优化中，从而在有限的训练数据情况下得到了很大的改进。

Oct, 2021

基于自适应学习和注意力机制的风格化图像字幕生成：客观描述或情感表现？

本文提出了一种新颖的基于 style-factual LSTM 和自适应学习的图像标注模型，能够同时考虑图像的内容和特定的风格要求，如幽默，浪漫，正面和负面。实验结果表明，该模型在两个不同的图像标注数据集上（幽默 / 浪漫标注以及正面 / 负面标注）的表现均超过了目前的最先进方法，且不需要额外的监督信息。

Jul, 2018

一个基于模块化和相似性的语言风格评估框架：能否捕捉 STEL？

提出模块化、细粒度和内容控制的基于相似度的 STEL 模型，用于测试比较两个句子风格的任何模型的性能，并发现基于 BERT 的方法优于其他常用的风格度量方法，希望加入更多任务和任务实例来促进风格敏感度量的改进。

Sep, 2021