May, 2023

WikiWeb2M:一份基于页面级别的多模态 Wikipedia 数据集

TL;DR通过保留完整的图像、文本和结构数据,Wikipedia Webpage 2M(WikiWeb2M)套件旨在研究多模式网页理解,如页面描述生成、部分摘要和上下文图像说明。