用于中文 LLaMA 和 Alpaca 的高效有效文本编码
通过利用开源项目中的大规模指令遵循数据集,我们采用参数高效调整方法对两个开放许可的大语言模型 (Bloomz 和 GPTJ) 进行了调整,使其在越南语上取得了显著的性能提升,并通过自动评分机制证明我们的方法相对于原始模型在评估任务上的效果提升了约 20-30%。
Sep, 2023
本文介绍了一个专门为医学应用 fine-tune 的数据集,并探究 fine-tuning 对于模型性能的影响,通过模型性能对比,论证 fine-tuned 模型在医学考试认证中的优越性。
Apr, 2023
通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型,本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练,以保证计算可行性和模型的稳健性。此外,我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码,进一步强调我们对开放研究的承诺,促进语言建模领域的进一步创新。
Nov, 2023
介绍了 LLaMA,包含 7B 至 65B 个参数的基础语言模型,使用公开可用的数据集训练,其中 LLaMA-13B 在大多数基准测试中优于 GPT-3(175B),LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。
Feb, 2023
我们在这项工作中,首次对多种大语言模型(LLMs)进行了全面评估,包括 Alpaca、Alpaca-LoRA 和 GPT-3.5,针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验,涵盖了零样本提示、少样本提示和指令微调。研究结果表明,对于心理健康任务,LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是,我们的实验表明,指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5(规模大 25 倍)高出 16.7%,并与最先进的任务特定模型相媲美。我们总结了一系列行动指南,供未来的研究人员、工程师和实践者参考,介绍如何赋予 LLMs 更好的心理健康领域知识,并成为心理健康预测任务的专家。
Jul, 2023
本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析,选取各种评估指标来评价各类开源聊天机器人的性能表现,并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练,以期提升聊天机器人在中文领域的表现与效率,最后将模型、数据、代码进行公开发布。
Apr, 2023
对 ChatGPT 进行中文文本纠错的评估,发现 ChatGPT 在中文文本纠错中表现出令人惊讶的性能,但也存在一些不令人满意的问题。
Jul, 2023
通过建立语言间的语义对齐,提出通过使用非英语训练数据来增强预训练大型语言模型在非英语语言上的能力,并通过实验结果证明此方法在六种非英语语言上超过英语模型 42.50%,在汉语人文任务上超过英语模型 8.2%。同时发现,使用非英语文本作为翻译数据的目标端特别有效,且随着翻译任务数据规模的扩大,语言模型内部的语义对齐能够进一步加强。
Aug, 2023
该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型,探讨各种训练数据因素,如数量、质量和语言分布,如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能,目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解,我们的模型、数据和代码可供其他人使用和构建。
May, 2023