利用人工生成的词汇控制多语种图像字幕生成

CVPRJun, 2017

利用人工生成的词汇控制多语种图像字幕生成

Using Artificial Tokens to Control Languages for Multilingual Image Caption Generation

Satoshi Tsutsui, David Crandall

TL;DR该研究提出了使用人工令牌控制语言，从而创建一个跨语言图像描述模型的简单技术，并使用神经字幕架构能够学习切换两种不同语言的单一模型。

Abstract

Recent work in computer vision has yielded impressive results in automatically describing images with natural language. Most of these systems generate captions in a sin- gle language, requiring multiple language-specific models to build a →

computer vision multilingual captioning neural captioning artificial tokens language control

发现论文，激发创造

使用深度神经网络架构进行图像字幕生成

该文讨论了图像字幕生成的各种模型，描述了对象识别和机器翻译的进展以及如何实现该模型，最后使用标准评估矩阵评估了该模型的性能。

Jan, 2018

随心所欲的图像字幕生成：一种有效注入情感到图像描述的多功能方案

通过将情感注入图像描述中，我们提出了两种不同的深度学习模型，这些模型可以生成具有情感的图像描述，并可以轻松地以所需的情感生成不同的描述。

Jan, 2018

一幅画胜千言：用于生成多样化字幕和富有表现力图像的统一系统

该研究采用创意图像和文本生成 AI 系统，通过多模态框架实现了多样化的标题和图像创建，同时采用 Transformer 网络模型支持多种标题参考，采用非自回归解码策略实现实时推断。

Oct, 2021

文本到图像生成：不让任何语言掉队

本文初步探索了三种常用的文本到图像生成模型在不同语言下的性能表现，并指出使用非英语语言时性能会有显著的下降，特别是对于不常用的语言。作者讨论了不同的方式来改进模型，以确保模型在不同语言下的性能保持一致，以实现跨语言的应用和维护语言多样性。

Aug, 2022

基于短语的图像字幕

本文提出了一个简单的模型，可以根据给定的图片生成相关的句子，它主要侧重于句子的语法，并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系，并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果，同时相对于最先进的模型而言，该方法更加简单。

Feb, 2015

展示并告诉：神经图像字幕生成器

本文提出了基于深度递归架构的生成模型，结合计算机视觉和机器翻译的最新进展，将图像描述为自然语言的句子，实验结果表明了模型的准确性和流畅性。

Nov, 2014

神经序列模型中的多语言图像描述

通过神经机器翻译和神经图像描述相结合的方法，在多语言图像描述任务中使用序列生成模型作为研究方法，我们发现相较于只针对单个语言的模型，使用多语言训练的模型在英语和德语对齐的 IAPR-TC12 数据集上的 BLEU4 和 Meteor 分数显著且实质性地提高了。

Oct, 2015

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

面向开放域创造力和公平性的可控文本生成

本文介绍了一些控制文本生成的方法以增强语言生成模型的创造力和公平性，包括层级生成和约束解码，并应用于故事、诗歌、比喻语言的创意生成，以及减少生成模型的社会偏见。

Sep, 2022

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021