ACLDec, 2018

视觉引导的归纳偏置在口语学习中的应用

TL;DR本文讨论了一种利用多任务学习的方式,在端到端的语言处理中利用已有的转录发音从而带来图像检索表现的一个显著的提高,这是由于转录发音为模型提供了很强的归纳偏置,这些是通过匹配发音字幕、语音和文本、以及文本和图像等三个任务来实现的。