Sep, 2023
CulturaX:一个干净、庞大且多语言的数据集,适用于拥有 167 种语言的大型语言模型
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages
Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo...
TL;DRCulturaX 为大型语言模型提供一份多语种数据集,经过严格清洗和去重处理,解决了 LLM 开发中的透明度、幻觉和偏见问题,促进了多语种 LLM 的研究和发展。