May, 2015

联合建模嵌入和翻译以桥接视频和语言

TL;DR本文提出了一种名为LSTM-E的新型统一框架,它可以同时探索LSTM和视觉-语义嵌入的学习,以有效生成自然语言描述的视频内容,实验表明LSTM-E在生成自然语言句子方面的表现优于目前为止的最佳表现,对于预测SVO三元组也超过了几种最先进的技术。