利用领域知识指令集构建针对奥利亚语的经过 Llama2 微调的 LLM
本文提出了一种基于提示的精调方法(LlamaIT),以实现对通用语言模型(LLM)在领域特定机器翻译任务中的有效和高效精调,并通过零样本提示与指令适应目标领域。结果表明,LlamaIT 能够显著提升 LLM 的领域特定机器翻译能力,同时保持其零样本机器翻译能力。
Feb, 2024
该研究探索了以成本效益的方法来适应新的低资源语言的事先训练的大型语言模型(LLMs),特别关注爱沙尼亚语。通过利用 Llama 2 模型,我们研究了将跨语言指令调整与额外的单语预训练相结合的影响。我们的结果表明,即使是相对较少的额外单语预训练再加上跨语言指令调整也能显著提高爱沙尼亚语的结果。此外,我们展示了从高质量的英文指令到爱沙尼亚语的跨语言知识转移,从而提高了常识推理和多轮对话能力。我们的最佳模型 extsc {Llammas} 是首个适用于爱沙尼亚语的开源指令跟随 LLM。此外,我们发布了爱沙尼亚的第一个通用任务指令数据集 Alpaca-est。这些贡献标志着发展适用于爱沙尼亚语的开源 LLMs 的初步进展。
Apr, 2024
通过引入针对 Indic LLMs 开发的广泛资源套件,包括 22 种语言,总共有 251 亿词汇和 7480 万指令 - 响应对,我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据,并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题,并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发,还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分,创建的数据和其他文物都以宽松的许可证发布。
Mar, 2024
通过两阶段微调算法,改进了大型语言模型(LLMs)遵循翻译指示的能力,特别是翻译方向信息,从而有效降低了错位翻译比率(平均降低 53.3%),提高了翻译质量(平均增加 5.7 SacreBLEU 和 16.4 BLEURT)。
Mar, 2024
通过使用多语言调优方法研究基础大型语言模型(LLMs)的代价效益,检验了 LLMs 对于单语和多语环境中查询的有效性,并发现多语调优对于 LLMs 在多语环境中的鲁棒性是关键。研究表明,在有限的计算资源情况下,仅使用有限数据集对多语调优模型进行训练,与为每种语言训练单语模型相比具有相同强大的性能。这些发现可作为扩展语言支持的指南,通过使用约束的计算资源进行指令调优。
Sep, 2023
通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型,本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练,以保证计算可行性和模型的稳健性。此外,我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码,进一步强调我们对开放研究的承诺,促进语言建模领域的进一步创新。
Nov, 2023
我们通过创建阿拉伯语指令数据集,对两个开源模型进行微调并在多个下游任务上进行评估,最终达到了阿拉伯语自然语言处理基准的最新性能水平。
Jul, 2024
研究了三种低资源跨语言方法,并在语境学习和微调下发现通过添加额外的主导语言监督信号,对 LLM 的跨语言转移有所改进;同时,发现将目标语言适应词汇重排可能对 ICL 有益,但随着微调而减弱;最后,继续以一种低资源语言进行预训练可提高其他相关低资源语言的模型性能。
Jun, 2024
通过整合任务特定数据集和生成数据集,我们改进了 LLaMA-2-Amharic 模型,提高了其对阿姆哈拉语的语言模型性能,并公开了我们的数据集创建流程、指导性数据集、训练模型和评估结果,以促进针对特定语言的研究。
Feb, 2024