ADS-Cap: 一个准确且多样化的风格化说明文档生成框架，无需成对的风格化语料库

Aug, 2023

ADS-Cap: 一个准确且多样化的风格化说明文档生成框架，无需成对的风格化语料库

ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with Unpaired Stylistic Corpora

Kanzhi Cheng, Zheng Ma, Shi Zong, Jianbing Zhang, Xinyu Dai...

TL;DR使用不成对的文体语料库生成具有特定语言风格的视觉 grounded 图片标题是一项具有挑战性的任务，本文提出了一种新的框架（ADS-Cap）来生成准确且多样化的文体标题，其中使用对比学习模块来统一成对的事实语料库和不成对的文体语料库，并使用条件变分自动编码器在潜空间中自动记忆多种文体模式以增强多样性，并通过简单而有效的重新检查模块提高文体准确性。在两个广泛使用的文体图片标题数据集上进行的实验结果表明，相比多种基准模型，ADS-Cap 在与图片一致性、文体准确性和多样性方面表现出了出色的性能。最后，我们进行了广泛的分析以了解我们方法的有效性。

Abstract

Generating visually grounded image captions with specific linguistic styles using unpaired stylistic corpora is a challenging task, especially since we expect stylized captions with a wide variety of stylistic pa

image captions linguistic styles ads-cap contrastive learning stylized image captioning

发现论文，激发创造

通过对抗式学习生成多样且准确的视觉描述

提出一种基于条件生成对抗网络的比较式对抗学习框架，能够在图像描述任务中生成不仅准确而且多样化的描述语句。

Apr, 2018

通过对抗训练生成风格化的图像标题

提出一种名为 ATTEND-GAN 的图像描述模型，其利用基于注意力的描述生成器和对抗训练机制，使生成的描述具有相关性和更广泛的风格变化，证明其优于现有技术并提供更好的图像描述。

Aug, 2019

随心所欲的视觉描述：由少量风格化句子引导的图像和视频描述

FS-StyleCap 是一个用于 Few-Shot Stylized Visual Captioning 的框架，通过训练样本生成相关风格的标题描述，其在自动评估中的结果优于现有方法，并且在处理多种风格方面具有能力。

Jul, 2023

StyleCap：基于语音和语言自我监督学习模型的自动口语样式字幕生成

StyleCap 提出了一种生成自然语言描述语音中出现的语言风格的方法，通过训练神经网络来预测前缀向量，并使用一个大型语言模型（LLM）的文本解码器从语音表示向量生成说话风格提示。

Nov, 2023

多样式图像字幕的样式感知对比学习

本文提出了一种针对多风格图像字幕生成的样式感知对比学习的方法，该方法基于对潜在与风格相关的视觉内容的对比学习，提出了一个样式感知的视觉编码器以及三种检索方案。实验结果表明，该方法的性能达到了最先进水平。

Jan, 2023

基于自适应学习和注意力机制的风格化图像字幕生成：客观描述或情感表现？

本文提出了一种新颖的基于 style-factual LSTM 和自适应学习的图像标注模型，能够同时考虑图像的内容和特定的风格要求，如幽默，浪漫，正面和负面。实验结果表明，该模型在两个不同的图像标注数据集上（幽默 / 浪漫标注以及正面 / 负面标注）的表现均超过了目前的最先进方法，且不需要额外的监督信息。

Jul, 2018

通过对带标签数据进行对抗传输进行半监督图像字幕生成

提出了一种半监督学习方法，使用对抗式学习来为未配对的样本分配伪标签，提升图像字幕模型的泛化性能，并展示了该方法在不同场景下都有较为明显的性能提升，包括关系字幕和网络爬虫数据。

Jan, 2023

基于敌对半监督学习的极度稀缺监督数据图像描述方法

本文提出了一种新颖的数据有效的半监督学习框架，该框架利用大规模的未配对图像和标题数据来学习它们之间的联系，并通过生成对抗网络将伪标签分配给未配对样本，来训练图像字幕模型。实验结果表明，该方法相对于几个强基线的效果明显，尤其是在配对样本数量很少的情况下。此外，我们构建了少配对的 COCO 数据集，证明了我们方法的有效性。

Sep, 2019

CapS-Adapter：基于标题的零射界多模适配器分类

CapS-Adapter 是一种创新方法，通过利用图像和字幕特征构建接近目标分布的支持集，超越现有的最先进技术，实现了在无需训练的情况下的显着零样本分类改进。

May, 2024

神经时尚图片字幕生成：考虑数据多样性

本研究使用 InFashAIv1 和 DeepFashion 数据集，使用 Show and Tell 算法生成时尚图片的描述，取得更好的效果，并发现对于非洲风格的时尚图片，联合训练提高了图像描述质量，表明西方风格数据的迁移学习是可行的，释放了 InFashAIv1 数据集以促进更多包容性工作。

Jun, 2021