上下文 - 对象分离潜空间的多样化图像字幕
通过 Seq-CVAE 模型,学习每一个单词位置的潜在空间,并仿照一个将来总结的表示来鼓励这个时间上的潜在空间捕捉如何完成句子的 “意图”,并在 MSCOCO 数据集上表现出了显著的多样性改进指标,同时在句子质量方面达到了同等水平。
Aug, 2019
本文提出了 Novel Object Captioner (NOC) 模型,利用外部数据源和语义嵌入使模型适用于不在现有图像字幕数据集中出现的数百种物体分类,并表现出对现有罕见分类的能力,自动评估和人类判断均表明,该模型在描述物体方面比之前的工作表现更好。
Jun, 2016
本文提出一种训练生成模型的方法,通过强制要求上下文信息分离和知觉循环一致性的结合,让潜在变量只会影响到某个物体的局部区域,从而实现对象为中心的操作,而且不需要对象级别的注释。
Apr, 2020
本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。
May, 2022
本文探索了影响视觉语言模型组合推理性能的两个因素:对齐图像 - 文本数据集的质量和文本的密度。通过在 CC3M 数据集上 fine-tuning CLIP 模型,我们证明了自动处理这些影响因素的方法可以使模型的组合推理性能显著提高,基于基线模型的表现增加了约 20%,平均提高 6.7%。
May, 2023
本论文提出了一种新方法,使用大型语言模型从文本描述和上下文中生成图像字幕,而无需直接处理图像,经调优后,该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型,解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。
Jun, 2023
本文针对图像生成环境下的语境问题,提出了一种关键词区分的图像描述生成方法,该方法不需要针对每个具体图像进行训练,可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示,该方法在区分性描述上优于基准生成型和发话人 - 听众型方法。
Jan, 2017
本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model,并利用 pretraining 技术解决了 context-independent 问题,以达到比以前更好的效果。
Jun, 2023
本文提出了一种新的度量图像标题多样性的指标,并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量,结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距,并且优化准确度(CIDEr)的模型的多样性很低,同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。
Mar, 2019
本文通过实验研究,对比了四种图像选择和四种图像描述分配策略,在视觉语言领域的图像字幕生成任务中,探索了不同配置对于在情境学习上的影响,揭示了多模态协同作用下视觉语言情境学习的独特特征。
May, 2023