Nov, 2020

基于语言驱动的区域指针推进的可控图像字幕生成

TL;DR本文提出了一种通过在语言结构中引入NEXT-token的方法来预测区域指针前进的时机的新方法,该方法可提高准确度并显著增加有效词汇量。