因素条件下的言语风格字幕生成

Jun, 2024

Factor-Conditioned Speaking-Style Captioning

Atsushi Ando, Takafumi Moriya, Shota Horiguchi, Ryo Masumura

TL;DR本篇论文提出了一种新颖的说话风格字幕生成方法，能够生成多样的描述，同时准确地预测说话风格信息。通过引入因素条件字幕生成（FCC）和贪婪采样（GtS）解码方法，实现对说话风格因素的学习和生成多样化的字幕，提高了风格预测性能。

Abstract

This paper presents a novel speaking-style captioning method that generates diverse descriptions while accurately predicting speaking-style information. Conventional learning criteria directly use original captio

speaking-style captioning factor-conditioned captioning greedy-then-sampling decoding diverse descriptions style prediction

发现论文，激发创造

StyleCap：基于语音和语言自我监督学习模型的自动口语样式字幕生成

StyleCap 提出了一种生成自然语言描述语音中出现的语言风格的方法，通过训练神经网络来预测前缀向量，并使用一个大型语言模型（LLM）的文本解码器从语音表示向量生成说话风格提示。

Nov, 2023

随心所欲的视觉描述：由少量风格化句子引导的图像和视频描述

FS-StyleCap 是一个用于 Few-Shot Stylized Visual Captioning 的框架，通过训练样本生成相关风格的标题描述，其在自动评估中的结果优于现有方法，并且在处理多种风格方面具有能力。

Jul, 2023

图像生成字幕的神经组合范式

本文提出了一种用于图像字幕生成的可分解的相互递归生成过程，通过对语义和句法明确的因式分解，更好地保留了语义内容。所提出的组合过程需要较少的数据进行训练，并具有更好的广义和多样性。

Oct, 2018

时尚字幕生成：基于语义奖励的准确描述生成

本文介绍了一种新颖的学习框架，结合属性级语义，句子级语义和强化学习来生成精确的时尚图片描述，同时构建了一个新的时尚图片描述数据集以证明模型的有效性。

Aug, 2020

一种简单且高效的端到端图像描述方法

通过联接预训练的视觉编码器和语言解码器，提出了一种自组装的交叉模式融合机制，建立了一种朴素但高效的端到端形象字幕框架，名为 VC-GPT，不需要额外的物体探测器，非常好地解决了现有方法中可能存在的问题，验证结果显示 VC-GPT 完全超越了传统基线系统。

Jan, 2022

视觉事实查证：实现高保真详细标题生成

本研究提出了一种名为 VisualFactChecker（VFC）的自动图像描述方法，通过三个步骤，包括提案、验证和描述，生成高保真、详细的 2D 图像和 3D 物体描述，经综合评估得知 VFC 在多个指标上胜过其他开源的自动图像描述方法。

Apr, 2024

基于掩码生成模型的文本条件采样框架用于文本生成图像

本文提出了一种学习可采样模型的 Text-Conditioned Token Selection（TCTS）方案，通过文本信息的本地化监督来选择最优选项，这样可以提高生成图像的质量和与给定文本的语义对齐度，并引入一种统一的采样策略 Frequency Adaptive Sampling（FAS），以进一步提高图像质量和文本对齐度。我们在各种生成任务中验证了 TCTS 与 FAS 的功效，并展示它在图像 - 文本对齐和图像质量方面显著优于基线，文本条件采样框架可以将原始推理时间缩短 50% 以上，这是继承基线模型的一个重大优势。

Apr, 2023

ADS-Cap: 一个准确且多样化的风格化说明文档生成框架，无需成对的风格化语料库

使用不成对的文体语料库生成具有特定语言风格的视觉 grounded 图片标题是一项具有挑战性的任务，本文提出了一种新的框架（ADS-Cap）来生成准确且多样化的文体标题，其中使用对比学习模块来统一成对的事实语料库和不成对的文体语料库，并使用条件变分自动编码器在潜空间中自动记忆多种文体模式以增强多样性，并通过简单而有效的重新检查模块提高文体准确性。在两个广泛使用的文体图片标题数据集上进行的实验结果表明，相比多种基准模型，ADS-Cap 在与图片一致性、文体准确性和多样性方面表现出了出色的性能。最后，我们进行了广泛的分析以了解我们方法的有效性。

Aug, 2023

基于自适应学习和注意力机制的风格化图像字幕生成：客观描述或情感表现？

本文提出了一种新颖的基于 style-factual LSTM 和自适应学习的图像标注模型，能够同时考虑图像的内容和特定的风格要求，如幽默，浪漫，正面和负面。实验结果表明，该模型在两个不同的图像标注数据集上（幽默 / 浪漫标注以及正面 / 负面标注）的表现均超过了目前的最先进方法，且不需要额外的监督信息。

Jul, 2018

NaturalSpeech 3：基于分解编解码和扩散模型的零样本语音合成

自然言语 3 通过因式分解扩散模型将语音波形分解为内容、韵律、音色和声学细节的子空间，并实现了高质量、相似度、韵律和可懂性的自然语音生成。

Mar, 2024