Oct, 2022

Pix2Struct: 屏幕截图解析用于视觉语言理解的预训练

TL;DRPix2Struct 是一种预先训练的图像到文本模型,能够解析丰富的文本,可用于多个领域任务,实现了最先进的结果。