StyleM: 基于对比 N-grams 构建的图像字幕风格化度量
本文提出了一种针对多风格图像字幕生成的样式感知对比学习的方法,该方法基于对潜在与风格相关的视觉内容的对比学习,提出了一个样式感知的视觉编码器以及三种检索方案。实验结果表明,该方法的性能达到了最先进水平。
Jan, 2023
通过 SemStyle 模型,利用自然语言处理技术和语义框架生成语义和风格相符且与图片语义相关的题注,为从丰富的网络语言数据中学习更丰富的图像描述提供可能性。
May, 2018
本文通过一系列的实验,深入评估了现有的图像字幕度量,并探索了最近提出的 Word Mover's Distance(WMD)文档度量在图像字幕中的应用。结果表明,WMD 相比其他度量具有较强的优势。
Dec, 2016
FS-StyleCap 是一个用于 Few-Shot Stylized Visual Captioning 的框架,通过训练样本生成相关风格的标题描述,其在自动评估中的结果优于现有方法,并且在处理多种风格方面具有能力。
Jul, 2023
通过利用简单的 Siamese 学习,我们引入了一种基于深度学习的度量方法来量化不匹配图像对之间的风格差异,利用训练无需任何显式的风格距离知识的编码器生成 X 射线图像风格表征。实验结果表明,我们的方法能够提供有意义且区分性强的风格表征,并能够准确地量化非匹配图像对之间的风格距离,为引导式风格选择和图像流程参数自动优化提供了一种有前景的技术。
May, 2024
使用粗略匹配的文本作为引导,本研究介绍了一种新颖的基于文本的风格生成方法,通过两阶段的生成对抗网络生成与细化图像风格,并通过实验证实了该方法的有效性和实际应用价值。
Sep, 2023
本文提出了两种关联度度量指标,并提出一种新的策略用于定义语义自适应边缘,并将其用于标准三元组损失函数的优化中,从而在有限的训练数据情况下得到了很大的改进。
Oct, 2021
本文提出了一种新颖的基于 style-factual LSTM 和自适应学习的图像标注模型,能够同时考虑图像的内容和特定的风格要求,如幽默,浪漫,正面和负面。实验结果表明,该模型在两个不同的图像标注数据集上(幽默 / 浪漫标注以及正面 / 负面标注)的表现均超过了目前的最先进方法,且不需要额外的监督信息。
Jul, 2018
提出模块化、细粒度和内容控制的基于相似度的 STEL 模型,用于测试比较两个句子风格的任何模型的性能,并发现基于 BERT 的方法优于其他常用的风格度量方法,希望加入更多任务和任务实例来促进风格敏感度量的改进。
Sep, 2021