Sep, 2023
密超化粉 1.0:面向特定领域大模型的专用预训练语料数据集
MiChao-HuaFen 1.0: A Specialized Pre-trained Corpus Dataset for Domain-specific Large Models
Yidong Liu, Conghui He, Conghui He, Wei Li, FuKai Shang...
TL;DR通过评估现有的大模型在专门领域中的限制性,本文引入了 “MiChao-HuaFen 1.0” 预训练语料库数据集,旨在为新闻和政府领域提供高质量和可靠来源,支持中文行业特定大模型的预训练,并促进相关领域深度学习研究和应用。