通过指令调整，为 Mistral-8x7B 稀疏 Mixture-of-Experts 激活中文聊天能力的 Aurora

Dec, 2023

通过指令调整，为 Mistral-8x7B 稀疏 Mixture-of-Experts 激活中文聊天能力的 Aurora

Aurora:Activating Chinese chat capability for Mistral-8x7B sparse Mixture-of-Experts through Instruction-Tuning

Rongsheng Wang, Haoming Chen, Ruizhe Zhou, Yaofei Duan, Kunyan Cai...

TL;DR通过对三个中文指令数据集进行系统研究、预处理和整合，本文成功构建了名为 'Aurora' 的 Mixtral-8x7B 稀疏专家组合模型，并通过这些数据集的指令微调，验证了 Aurora 模型在中文对话能力上的有效性，这一工作在稀疏专家组合模型的指令微调方面具有开创性意义，对该模型结构的能力提升具有显著突破。

Abstract

Existing research has demonstrated that refining large language models (LLMs) through the utilization of machine-generated instruction-following data empowers these models to exhibit impressive zero-shot capabili

large language models instruction-following data chinese conversational capabilities mixtral-8x7b sparse mixture-of-experts model instruction fine-tuning

发现论文，激发创造

重新思考 LLM 语言适应：以中文 Mixtral 为案例研究

该研究通过基于稀疏专家混合（SMoE）语言模型的 Mixtral 为基础，提出了 Chinese-Mixtral 和 Chinese-Mixtral-Instruct，通过进一步的预训练和指导微调改进了中文语言能力，并证明了其在中文理解和生成性能方面的成功，同时保留了原有的英语能力。此外，研究还讨论了在大型语言模型上进行语言适应时的一些关键问题，包括扩展语言特定词汇的必要性和初始化模型的选择（基础模型还是指导模型），并提供了实证结果和分析。研究还通过可视化每个专家来检查它们在下游任务中的重要性。研究资源通过 https://github.com/ymcui/Chinese-Mixtral 公开提供。

Mar, 2024

专家混合模型

引入了 Mixtral 8x7B，一种稀疏的专家混合（SMoE）语言模型，采用了与 Mistral 7B 相同的架构，每个层由 8 个前馈块（即专家）组成，并通过路由网络选择两个专家处理当前状态和组合它们的输出，最终得到使用 13B 活跃参数的 47B 参数模型，在数学、代码生成和多语言基准测试中表现优秀，并提供了针对指令的精调模型 Mixtral 8x7B - Instruct，在人类基准测试中超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - chat model。

Jan, 2024

Aurora-M：第一个根据美国行政命令进行红队测试的开源多语言模型

Aurora-M is a multilingual open-source pretrained language model that addresses challenges such as limited multilingual capabilities and catastrophic forgetting, surpassing 2 trillion training tokens. It aligns with safety considerations and outperforms alternatives in multilingual settings.

Mar, 2024

指导调优大型语言模型的实证研究

通过深入实证研究指导调优中文语言模型，本文提供了宝贵的研究结果，有助于定制能更好地应对中文指令的大型语言模型。

Oct, 2023

Panda LLM: 开源中文指令模型的训练数据和评估

该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型，探讨各种训练数据因素，如数量、质量和语言分布，如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能，目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解，我们的模型、数据和代码可供其他人使用和构建。

May, 2023

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

大规模语言模型微调的自适应机器翻译

利用零射击和单射击翻译提示在医学领域内进行了 Mistral 7B 大型通用语言模型 (LLM) 的微调，以提高其实时自适应机器翻译能力，结果显示其对西班牙语到英语机器翻译的质量改进超过了基准性能，并且其零射击翻译与 NLLB 3.3B 的性能相匹配，单射击翻译质量超过了 NLLB 3.3B 的性能，明确了微调高效 LLMs 像 Mistral 7B 的重要性，以产生与任务导向模型相当的高质量零射击翻译。

Dec, 2023

ChatSpot: 通过精确引导指导调整，通过引导引导引导链接

基于精确的指代指令，我们提出了 ChatSpot，这是一个统一的端到端多模态大型语言模型，支持多种形式的交互，包括鼠标点击、拖放和绘制矩形框，从而提供更灵活、无缝的交互体验。实验证明 ChatSpot 具有良好的性能。

Jul, 2023

Bactrian-X: 低秩适应的多语言可复制指令跟随模型

本文介绍了如何使用 Bactrian-X 数据集；使用低秩适应（LoRA）的一组 adapter 进行多语言指令优化，取得了比现有模型更优的效果。

May, 2023

一位教师胜过百万句指令

我们提出了一种改进的训练方法，使用更大的模型的知识来提高大型语言模型的训练效果，同时利用领域专家模型进行领域对齐，通过这种方法，在性能上超过了具有更大参数数量的现有语言模型。

Jun, 2024