联合建模嵌入和翻译以桥接视频和语言

May, 2015

联合建模嵌入和翻译以桥接视频和语言

Jointly Modeling Embedding and Translation to Bridge Video and Language

Yingwei Pan, Tao Mei, Ting Yao, Houqiang Li, Yong Rui

TL;DR本文提出了一种名为LSTM-E的新型统一框架，它可以同时探索LSTM和视觉-语义嵌入的学习，以有效生成自然语言描述的视频内容，实验表明LSTM-E在生成自然语言句子方面的表现优于目前为止的最佳表现，对于预测SVO三元组也超过了几种最先进的技术。

Abstract

Automatically describing video content with natural language is a fundamental challenge of multimedia. recurrent neural networks (RNN), which models sequence dynamics, has attracted increasing attention on visual

发现论文，激发创造

多模态神经语言模型统一视觉-语义嵌入

本文提出了一种多模态学习的编码器-解码器模型，学习图像和文本的多模态联合嵌入空间和现代语言模型。使用LSTM进行句子编码，该模型在Flickr8K和Flickr30K数据集上表现出色。同时，该模型通过线性编码器捕捉到了空间算术中的多模态规律。

Nov, 2014

使用深度递归神经网络将视频翻译为自然语言

本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法，并通过将知识从含标记种类超过120万张图像和带字幕的超过100,000张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量，主语，动词和宾语预测准确度以及人的评估进行比较，证明本方法的有效性。

Dec, 2014

使用长短期记忆网络的深度句子嵌入：分析和在信息检索中的应用

本文提出了一种基于循环神经网络和长短时记忆单元的句子嵌入模型，该模型能够自动侦测句子中关键词和主题，从而进行网络文档检索等艰难的语言处理任务，并在性能上显著优于现有的先进方法。

Feb, 2015

序列到序列 -- 视频到文本

该文章介绍了一种基于序列到序列模型和LSTM的视频描述方法，利用时间结构，将视频帧序列与单词序列相关联来生成视频描述，同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。

May, 2015

电影描述的长短故事

本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器CNNs以及LSTMs，学习生成描述的算法，并在MPII-MD数据集上获得了目前最佳性能。

Jun, 2015

基于文本挖掘的语言知识提升的LSTM视频描述

本文探讨了如何从大型文本语料库中挖掘语言知识以帮助生成视频的自然语言描述，并将神经语言模型和分布式语义训练应用于最近的基于LSTM的视频描述体系结构。我们在一组Youtube视频和两个大型电影描述数据集上评估了我们的方法，在改善语法正确性的同时适度提高了描述质量。

Apr, 2016

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016

递归内存寻址描述视频

本文提出了Key-Value Memory Networks应用于多模态设置的方法，以及一种新的键寻址机制，将视频字幕生成问题自然地分解为视觉和语言端，将其作为键-值对处理，并在寻址模式下提出了一种递归关注的方法来捕捉语境信息，通过实验发现，这种方法可以提高BLEU@4，METEOR得分，并实现了与最先进方法竞争性能。

Nov, 2016

使用转移语义属性的视频字幕生成

本文提出了一种深层网络模型LSTM-TSA，加入转移学习的思想，利用从图像和视频中学到的语义属性帮助视频描述生成，在三个公共数据集上的结果超过了现有方法。

Nov, 2016

UniVSE: 通过结构化语义表示实现强健的视觉语义嵌入

该论文提出了统一的视觉语义嵌入方法，采用对比学习的方法从仅有的图像-标题对中对不同水平的概念进行对齐，对于句子中出现的语义组件进行了有效处理，证明该方法具有鲁棒性和可靠性。

Apr, 2019