ParaCNN: 基于对抗孪生上下文 CNN 的视觉段落生成
本文提出一种生成整段文字描述图片的方法,相比仅仅用一句话进行描述,该方法能够提供更加细致以及连贯的故事情节。该方法使用了分层递归神经网络对图片中的语义区域以及自然语言进行建模并生成整段文字。在实验中该方法被证明是较为有效的。
Nov, 2016
该论文提出了一种上下文感知的视觉策略网络(CAVP)来实现细粒度的图像描述生成,通过明确考虑前面的视觉注意力并使用当前视觉注意力决定是否将其用于当前词 / 句子生成,CAVP 可以随时间考虑复杂的视觉组合,从而在 MS-COCO 和 Stanford 字幕数据集上表现出卓越的性能。
Jun, 2019
通过使用 “连贯向量”、“全局主题向量” 和变分自动编码器对段落生成技术进行增强,以解决图像关联性固有的歧义性,本文在两个数据集上比现有最先进技术表现更为出色。
Sep, 2018
本研究提出一种基于好奇心驱动的强化学习框架(CRL),旨在通过在长期决策过程中测量状态转移预测不确定性、引入由好奇心模块产生的密集的固有奖励、以及整合折扣模仿学习等方法,共同提高视觉段落生成的多样性和准确性
Aug, 2019
本文提出了一种半监督的自然图像描述方法 ——RTT-GAN,利用区域感知和语言机制生成连贯的段落描述,并通过对抗训练达到建立结构性生成器和多层段落判别器之间的生成并评估技术。
Mar, 2017
本文提出了一种新的算法 Show-and-Fool,用于研究神经图像字幕系统在机器视觉和感知中健壮的语言基础,该算法通过两种评估方法检查神经图像字幕系统是否能够误导输出某些随机选择的字幕或关键字。实验证明,我们的算法可以成功地制作出视觉相似的对抗性例子,对其他图像字幕系统高度可传递,并导致了视觉语言基础的新型健壮性影响和新的洞察。
Dec, 2017
本研究探索了图像及其基于语句的描述之间的双向映射,提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子,并重新构建与图像相关的可视化特征,同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中,我们的自动生成字幕被人类喜欢的比例超过了 19.8%。和使用类似的视觉特征方法相比,我们的结果在图像和语句检索任务上达到了同等或更好的效果。
Nov, 2014
本研究提出使用对抗技术在推断过程中设计鉴别器来促进更好的多句子视频描述,并提出一个多鉴别器 “混合” 设计,其中每个鉴别器针对说明书的一个方面,以评估三个标准:与视频的视觉相关性、语言多样性和流畅度以及句子间的连贯性。该方法通过对流行的 ActivityNet 字幕数据集进行的自动化以及人工评估表明,能够产生更准确、多样和连贯的多句子视频说明。
Dec, 2018
提出了一种视觉和文本问题回答(VTQA)模型,该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题,并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练,显著提高了现有模型的性能。
Jun, 2019