May, 2022

VALHALLA: 机器翻译的视觉幻觉

TL;DR本文提出一种名为VALHALLA的视觉假象框架,利用自回归幻化Transformer从源句预测离散的视觉表示,与输入文本合并后输出目标翻译,通过标准反向传播训练数据。实验证明,该方法在多个数据集上均优于文本输入模型和最先进模型。