Nov, 2023

Cerbero-7B: 通过增强对话语料库生成和评估实现语言特定 LLM 的重大进展

TL;DR该研究介绍了使用自我聊天机制生成高质量、语言特定的聊天语料库的新方法。我们结合了一个生成器 LLM 以创建新样本,并使用一个嵌入器 LLM 以确保多样性。我们提出了一种基于蒙板语言模型(MLM)的质量评估度量方法,用于评估和过滤语料库。利用 llama2-70b 作为生成器和多语言句子转换器作为嵌入器,我们生成了意大利聊天语料库并改进了基于翻译的英语 ChatGPT 自我聊天数据的 Fauno 语料库。改进使用了结构断言和自然语言处理技术。这两个语料库都经过了基于提出的 MLM 模型的全面质量评估。用这些语料库来微调意大利 LLM 可以显著提升语言理解和问答能力。由此产生的模型 cerbero-7b 为意大利 LLM 建立了一个新的最先进水平。这种方法标志着发展语言特定 LLM 的重大进展,特别强调增加支持意大利等少数语言的语料库。