Sep, 2023

CulturaX:一个干净、庞大且多语言的数据集,适用于拥有 167 种语言的大型语言模型

TL;DRCulturaX 为大型语言模型提供一份多语种数据集,经过严格清洗和去重处理,解决了 LLM 开发中的透明度、幻觉和偏见问题,促进了多语种 LLM 的研究和发展。