Apr, 2024

智慧认知:推进学术知识和机器推理的综合数据集

TL;DRIntellecta数据集是一个创新的合成数据集,旨在增强当代语言模型的认知处理能力。它由1153亿个标记组成,将80.10亿个合成数据标记与35.2亿个丰富的教材数据标记相结合,旨在促进高级推理和全面的教育叙事生成。借助Mixtral-8x7B-Instruct-v0.1模型,该数据集促进了复杂思维过程和详细的教材式解释的生成,从而使语言模型能够进行批判思考和深入的教育对话。作为一种混合数据集,它不仅广泛且多样,还在道德标准和知识严谨性方面得到了完善,体现了合成数据推动人工智能边界的潜力。