Jun, 2024

OmniCorpus:一个包含百亿级图像和文本交叉编码的统一多模态语料库

TL;DR介绍了 OmniCorpus 数据集,一个 100 亿级别的图文交错数据集,与互联网数据的呈现范式相一致并且紧密符合人类阅读习惯,通过全面的分析和实验验证了所提出数据集的质量、可用性和有效性,为未来的多模态模型研究提供了坚实的数据基础。