StyleCap 提出了一种生成自然语言描述语音中出现的语言风格的方法,通过训练神经网络来预测前缀向量,并使用一个大型语言模型(LLM)的文本解码器从语音表示向量生成说话风格提示。
Nov, 2023
FS-StyleCap 是一个用于 Few-Shot Stylized Visual Captioning 的框架,通过训练样本生成相关风格的标题描述,其在自动评估中的结果优于现有方法,并且在处理多种风格方面具有能力。
Jul, 2023
本文提出了一种用于图像字幕生成的可分解的相互递归生成过程,通过对语义和句法明确的因式分解,更好地保留了语义内容。所提出的组合过程需要较少的数据进行训练,并具有更好的广义和多样性。
Oct, 2018
本文介绍了一种新颖的学习框架,结合属性级语义,句子级语义和强化学习来生成精确的时尚图片描述,同时构建了一个新的时尚图片描述数据集以证明模型的有效性。
Aug, 2020
通过联接预训练的视觉编码器和语言解码器,提出了一种自组装的交叉模式融合机制,建立了一种朴素但高效的端到端形象字幕框架,名为 VC-GPT,不需要额外的物体探测器,非常好地解决了现有方法中可能存在的问题,验证结果显示 VC-GPT 完全超越了传统基线系统。
Jan, 2022
本研究提出了一种名为 VisualFactChecker(VFC)的自动图像描述方法,通过三个步骤,包括提案、验证和描述,生成高保真、详细的 2D 图像和 3D 物体描述,经综合评估得知 VFC 在多个指标上胜过其他开源的自动图像描述方法。
Apr, 2024
本文提出了一种学习可采样模型的 Text-Conditioned Token Selection(TCTS)方案,通过文本信息的本地化监督来选择最优选项,这样可以提高生成图像的质量和与给定文本的语义对齐度,并引入一种统一的采样策略 Frequency Adaptive Sampling(FAS),以进一步提高图像质量和文本对齐度。我们在各种生成任务中验证了 TCTS 与 FAS 的功效,并展示它在图像 - 文本对齐和图像质量方面显著优于基线,文本条件采样框架可以将原始推理时间缩短 50% 以上,这是继承基线模型的一个重大优势。
Apr, 2023
使用不成对的文体语料库生成具有特定语言风格的视觉 grounded 图片标题是一项具有挑战性的任务,本文提出了一种新的框架(ADS-Cap)来生成准确且多样化的文体标题,其中使用对比学习模块来统一成对的事实语料库和不成对的文体语料库,并使用条件变分自动编码器在潜空间中自动记忆多种文体模式以增强多样性,并通过简单而有效的重新检查模块提高文体准确性。在两个广泛使用的文体图片标题数据集上进行的实验结果表明,相比多种基准模型,ADS-Cap 在与图片一致性、文体准确性和多样性方面表现出了出色的性能。最后,我们进行了广泛的分析以了解我们方法的有效性。
Aug, 2023
本文提出了一种新颖的基于 style-factual LSTM 和自适应学习的图像标注模型,能够同时考虑图像的内容和特定的风格要求,如幽默,浪漫,正面和负面。实验结果表明,该模型在两个不同的图像标注数据集上(幽默 / 浪漫标注以及正面 / 负面标注)的表现均超过了目前的最先进方法,且不需要额外的监督信息。
Jul, 2018
自然言语 3 通过因式分解扩散模型将语音波形分解为内容、韵律、音色和声学细节的子空间,并实现了高质量、相似度、韵律和可懂性的自然语音生成。
Mar, 2024