Nov, 2018

How2:一个大规模的多模态语言理解数据集

TL;DR本研究介绍了 How2,它是一个多模态的指导视频集合,包含英文字幕和社群翻译的葡萄牙语。我们还提出了包括机器翻译、自动语音识别、口语翻译和多模态摘要在内的一些序列到序列的基础模型。通过提供多个多模态自然语言任务的数据和代码,我们希望引导更多关于多模态与语言处理的研究,以获得更加深入的了解。