用于多样图片字幕中目的建模的连续潜在空间

ICCVAug, 2019

用于多样图片字幕中目的建模的连续潜在空间

Sequential Latent Spaces for Modeling the Intention During Diverse Image Captioning

Jyoti Aneja, Harsh Agrawal, Dhruv Batra, Alexander Schwing

TL;DR通过 Seq-CVAE 模型，学习每一个单词位置的潜在空间，并仿照一个将来总结的表示来鼓励这个时间上的潜在空间捕捉如何完成句子的 “意图”，并在 MSCOCO 数据集上表现出了显著的多样性改进指标，同时在句子质量方面达到了同等水平。

Abstract

Diverse and accurate vision+language modeling is an important goal to retain creative freedom and maintain user engagement. However, adequately capturing the intricacies of diversity in language models is challenging. Recent works commonly resort to latent variable models augmented wit

vision+language modeling latent variable models seq-cvae sentence completion mscoco dataset

发现论文，激发创造

上下文 - 对象分离潜空间的多样化图像字幕

本文介绍了一种基于上下文以及对象的潜在空间拆分方法，用于在跨域数据集中进行多样化的图像描述生成任务，实现了对图像上下文的多样化描述，同时通过将假的描述信息作为网络的监督信号，扩展了该网络使其可以处理新对象并在没有训练数据的情况下进行图像生成。实验结果表明该方法在 COCO 数据集上准确度和多样性表现良好。

Nov, 2020

视频字幕的判别性潜在语义图

该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Aug, 2021

共享多模态嵌入的无监督图像字幕生成

通过共享的、结构化的视觉概念潜在空间，将图像特征转化到语义向量嵌入空间中，并使用同一语言模型将其解码为场景描述，无需明确监督来了解图像；这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库，并且具有鲁棒性。

Aug, 2019

基于词性引导的快速、多样化和准确的图像字幕生成

本文提出了一种新的图像描述生成方法，先预测图像的意思概要，再基于该概要生成文本，相比于传统 beam search 的方法，本文方法在文本多样性、计算效率和生成的描述准确性方面都有明显提高。

May, 2018

基于变分堆叠局部注意力网络的多样化视频字幕生成

提出了一种基于 VSLAN 的视频字幕生成模型，该模型在编码器 - 解码器体系结构的基础上利用低秩双线性池化进行自我关注特征交互，并采用多特征流叠加的方式实现多样性编码，并实现了端到端的字幕生成，取得了较好的性能。

Jan, 2022

LlaMaVAE: 通过连续的潜在句子空间指导大型语言模型生成

深度生成神经网络（如变分自动编码器）与大型语言模型相结合，得到了更好的文本生成控制，并在各种任务中表现出了优于现有模型的性能。

Dec, 2023

短文本对话生成中的离散 CVAE

本文研究主要通过在条件变分自编码器中引入具有显式语义意义的离散潜变量，从而提高短文本对话生成质量并增加多样性。实验证明，该模型在自动评估和人类评估中表现出色。

Nov, 2019

视觉问答的潜变量模型

本文提出使用潜在变量模型来解决视觉问答问题，将额外信息（如标题和答案类别）作为潜在变量进行训练，提高了问题回答性能。实验表明该方法在 VQA v2.0 基准测试数据集上优于其他方法。

Jan, 2021

具有图像和文本的潜在语义的神经机器翻译

研究使用潜变量从文本和图像提取语义信息来提高基于注意力机制的神经机器翻译效果，实验结果表明此方法在英德翻译任务中优于基线模型。

Nov, 2016

语义对齐下的潜在空间翻译

通过简单的转换，我们的研究展示了神经网络模型中学习到的表示可以在不同的预训练网络之间进行转化，从而有效地连接编码器和解码器，并实现在多模态设置下的出色分类性能。

Nov, 2023