Mar, 2018

基于自然语言的目标描述和检索

TL;DR本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法,并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明,使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题,并在推理时间非常快的同时,提供了对对象的详细理解。