用于中文 LLaMA 和 Alpaca 的高效有效文本编码

Apr, 2023

用于中文 LLaMA 和 Alpaca 的高效有效文本编码

Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca

Yiming Cui, Ziqing Yang, Xin Yao

TL;DR本研究旨在通过在大规模语言模型的基础上加强中文语义理解能力来解决其部署困难和开放性挑战，提出了 LLaMA 和 Alpaca 大规模语言模型，通过在中文数据集上进行预训练和指令微调，使其可以更好地执行指令，并通过 GitHub 开源该项目，为开放研究提供了基础资源。

Abstract

large language models (LLMs), such as ChatGPT and GPT-4, have revolutionized natural language processing research and demonstrated potential in Artificial General Intelligence (AGI). However, the expensive training and deployment of LLMs present challenges to transparent and open acade

large language models chinese llama pre-training fine-tuning nlp

发现论文，激发创造

为越南聊天机器人高效微调大型语言模型

通过利用开源项目中的大规模指令遵循数据集，我们采用参数高效调整方法对两个开放许可的大语言模型 (Bloomz 和 GPTJ) 进行了调整，使其在越南语上取得了显著的性能提升，并通过自动评分机制证明我们的方法相对于原始模型在评估任务上的效果提升了约 20-30%。

Sep, 2023

MedAlpaca -- 医疗对话人工智能模型和训练数据的开源集合

本文介绍了一个专门为医学应用 fine-tune 的数据集，并探究 fine-tuning 对于模型性能的影响，通过模型性能对比，论证 fine-tuned 模型在医学考试认证中的优越性。

Apr, 2023

Tamil-Llama：基于 Llama 2 的新泰米尔语言模型

通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型，本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练，以保证计算可行性和模型的稳健性。此外，我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进，对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码，进一步强调我们对开放研究的承诺，促进语言建模领域的进一步创新。

Nov, 2023

LLaMA：开放高效的基础语言模型

介绍了 LLaMA，包含 7B 至 65B 个参数的基础语言模型，使用公开可用的数据集训练，其中 LLaMA-13B 在大多数基准测试中优于 GPT-3（175B），LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。

Feb, 2023

指导调优大型语言模型的实证研究

通过深入实证研究指导调优中文语言模型，本文提供了宝贵的研究结果，有助于定制能更好地应对中文指令的大型语言模型。

Oct, 2023

通过在线文本数据利用大型语言模型预测心理健康

我们在这项工作中，首次对多种大语言模型（LLMs）进行了全面评估，包括 Alpaca、Alpaca-LoRA 和 GPT-3.5，针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验，涵盖了零样本提示、少样本提示和指令微调。研究结果表明，对于心理健康任务，LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是，我们的实验表明，指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5（规模大 25 倍）高出 16.7％，并与最先进的任务特定模型相媲美。我们总结了一系列行动指南，供未来的研究人员、工程师和实践者参考，介绍如何赋予 LLMs 更好的心理健康领域知识，并成为心理健康预测任务的专家。

Jul, 2023

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

关于中国文本纠错的大型语言模型的 (非) 有效性

对 ChatGPT 进行中文文本纠错的评估，发现 ChatGPT 在中文文本纠错中表现出令人惊讶的性能，但也存在一些不令人满意的问题。

Jul, 2023

借助语言对齐将大型语言模型推广到非英语语境

通过建立语言间的语义对齐，提出通过使用非英语训练数据来增强预训练大型语言模型在非英语语言上的能力，并通过实验结果证明此方法在六种非英语语言上超过英语模型 42.50%，在汉语人文任务上超过英语模型 8.2%。同时发现，使用非英语文本作为翻译数据的目标端特别有效，且随着翻译任务数据规模的扩大，语言模型内部的语义对齐能够进一步加强。

Aug, 2023

Panda LLM: 开源中文指令模型的训练数据和评估

该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型，探讨各种训练数据因素，如数量、质量和语言分布，如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能，目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解，我们的模型、数据和代码可供其他人使用和构建。

May, 2023