Oct, 2023

TabLib: 一个包含上下文的 6.27 亿个表格数据集

TL;DRTabLib 是一个包含着 6.27 亿个表格和 86.7 亿个上下文 token 的庞大数据集,从各种格式的文件中提取而来,为表格模态提供了巨大的潜力。