May, 2023

多级多模态网页理解的生成式任务套件

TL;DR为了研究多模态网页理解,我们介绍了包含两百万个网页的维基百科网页套件(WikiWeb2M),并在页面描述生成、节选总结和内容图像字幕等三个生成任务上验证了其实用性。