EMNLPOct, 2020

基于文本的视觉场景口语理解监督

TL;DR这篇研究论文主要研究了通过视觉模型来对口语语音进行语义理解,在低资源语言中通过传统的管道方法和端到端方法来提高模型性能,并比较发现管道方法比端到端方法更适用于足够的文本情况下,而翻译可以有效地代替转录,但需要更多的数据才能获得类似的结果。