Feb, 2024

层次化多模态预训练以理解视觉丰富的网页

TL;DR通过整合文本、结构和图像等多模态信息,使用多模态预训练网络进行自动文档理解和信息提取,实现了对网页的深入理解,显著提高了网页理解任务的性能。