Jun, 2024

InternLM-Law:一个开源的中国法律大型语言模型

TL;DR通过在中国法律领域构建超过 100 万个查询的数据集,并实现数据筛选和处理流程以确保其多样性和质量,我们介绍了 InternLM-Law,这是一个专门为回答与中国法律相关的各种法律问题而量身定制的大型语言模型。我们的训练方法涉及一种新颖的两阶段过程:首先在法律特定和通用内容上对 LLM 进行微调,以使模型具备广泛知识,然后在高质量的法律数据上进行独家微调以增强结构化输出生成能力。InternLM-Law 在 LawBench 上的平均表现最高,在 20 个子任务中有 13 个超过了包括 GPT-4 在内的最先进模型。我们公开提供 InternLM-Law 和我们的数据集,以促进将 LLM 应用于法律领域的未来研究。