Nov, 2022

ClueWeb22: 100 亿个带视觉和语义信息的网络文档

TL;DRClueWeb22 是一个高质量的、大规模的 Web 语料库,旨在支持信息系统、检索 - 增强 AI 系统和模型预训练等领域的学术和工业研究。