ICMLFeb, 2021

通过文本生成统一视觉语言任务

TL;DR该研究提出了一个统一框架,通过相同的语言建模目标,在单个体系结构中学习不同的任务,实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现,这种生成方法(在单个统一的体系结构下)显示出了与最先进的特定任务模型相当的性能,并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。