SuperCaptioning: 利用二维词嵌入进行图像字幕生成

CVPRMay, 2019

SuperCaptioning: 利用二维词嵌入进行图像字幕生成

SuperCaptioning: Image Captioning Using Two-dimensional Word Embedding

Baohua Sun, Lin Yang, Michael Lin, Charles Young, Patrick Dong...

TL;DR本研究提出了一种名为 SuperCaptioning 的方法，通过借鉴 Super Characters 方法中的二维词嵌入思想，在一个单一的 CNN 模型中同时处理语言和视觉信息，从而将图像字幕生成问题转化为图像分类问题，实验证明此方法可以在 Flickr30k 数据上生成高质量的图像字幕，并提供互动演示。

Abstract

Language and vision are processed as two different modal in current work for image captioning. However, recent work on Super Characters method shows the effectiveness of two-dimensional word embedding, which conv

image captioning two-dimensional word embedding supercaptioning language and vision processing cnn model

发现论文，激发创造

通过使用二维词向量和预训练的 ImageNet CNN 模型，从视觉到语言的迁移学习生成对话

本文提出基于 Super Characters 方法和二维嵌入技术的对话式回复生成方法，实验结果表明提出的 SuperChat 方法可以生成高质量回复，并有工作坊提供交互演示。

May, 2019

SuperTML：用于结构化表格数据的二维词嵌入

本文提出了 SuperTML 方法，通过采用两维度嵌入超级字符的思想，将表格数据进行二维嵌入，然后使用 fine-tuned 二维 CNN 模型来解决分类问题。实验结果表明，该方法在大型和小型数据集上都取得了最先进的结果。

Feb, 2019

超级角色：从情感分类到图像分类的转换

我们提出了一种名为 Super Characters 的方法用于情感分类，它将文本转换成图像并使用 CNN 模型进行分类，无需将单词或字符嵌入数值向量表示。在四种不同语言包括中文，日语，韩语和英语的十个社交媒体数据集上，Super Characters 方法在情感分类和主题分类任务上始终优于其他方法。

Oct, 2018

使用标题和点击数据的多任务文本到视觉嵌入

论文提出一种新的方法，使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入，并通过建模嵌入的积极感知提出新的三元损失函数，以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率，实验结果表明，该方法的表现优于现有方法，并且对于现实世界的文本到视觉检索也十分有效。

May, 2019

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

图像字幕

这篇论文讨论了我们在图像字幕生成实验中的结果，并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性，在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕，并提出了一些挑战性的假设。

May, 2018

从二维视角进行场景文本识别

采用二维视角，提出了基于字符注意力全卷积网络的场景文本识别算法，该算法在语义分割网络中采用了字符注意机制和词形成模块，在不失精度的情况下更具有鲁棒性。

Sep, 2018

预测图像和视频字幕检索的文本视觉特征

本文提出了一种基于视觉空间进行图像和视频描述检索的深度神经网络模型，通过多尺度句向量化和多层感知器等方法，将文本输入转化为视觉特征表示，实现了优于文本嵌入的多模态检索效果。

Sep, 2017

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

超越字幕到叙事：视频多句子字幕

本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法，实现丰富内容的视频字幕生成，结果表明该方法不需要显式输入视频级别特征即可提供丰富内容，与最新技术方法相同。

May, 2016