DaG LLM ver 1.0:针对韩国自然语言处理的先驱指导调优语言建模
利用 KIT-19 数据集训练的韩国预训练大语言模型在性能上显著优于现有韩国大语言模型,并具备潜力从根本上改善韩国大语言模型的性能。
Mar, 2024
通过利用开源项目中的大规模指令遵循数据集,我们采用参数高效调整方法对两个开放许可的大语言模型 (Bloomz 和 GPTJ) 进行了调整,使其在越南语上取得了显著的性能提升,并通过自动评分机制证明我们的方法相对于原始模型在评估任务上的效果提升了约 20-30%。
Sep, 2023
我们介绍了 DictaLM,这是一个专为现代希伯来语而设计的大规模语言模型。拥有 70 亿参数,该模型主要基于希伯来语中心化的数据进行训练。为了促进希伯来语的研究和发展,我们以创作共用许可证的形式发布了基础模型和指导调整模型。同时,我们还推出了 DictaLM-Rab,这是另一个面向拉比 / 历史希伯来语的基础模型。这些基础模型是针对各种希伯来语特定任务(如指导、问答、情感分析等)进行微调的理想起始点。此发布代表了一个初步的步骤,为希伯来语 NLP 社区提供了一个初始的希伯来语 LLM 模型供实验使用。
Sep, 2023
借助预先策划的人类知识和能力分类体系, GLAN 是一种适用于大型语言模型(LLM)的通用且可扩展的指令调整方法,它能纵向横向生成大规模的合成指令数据,覆盖人类知识和技能的完整领域。
Feb, 2024
这篇文章介绍了针对加利西亚语的两个生成式大型语言模型,通过减少数据限制以及使用人工评估和任务数据集的方法,这些模型展现出良好的性能,强调了在生成式模型中语言多样性的重要性。
Jun, 2024
本文介绍了 SaulLM-7B,一个专为法律领域设计的大型语言模型 (LLM),它具有 70 亿个参数,是第一个专门用于法律文本理解和生成的 LLM。利用 Mistral 7B 架构作为基础,SaulLM-7B 在超过 300 亿个标记的英文法律语料库上进行训练。SaulLM-7B 在理解和处理法律文件方面展现了最先进的能力。此外,我们提出了一种新颖的指导微调方法,利用法律数据集进一步提高 SaulLM-7B 在法律任务中的性能。SaulLM-7B 以 CC-BY-SA-4.0 许可证发布。
Mar, 2024
我们通过创建阿拉伯语指令数据集,对两个开源模型进行微调并在多个下游任务上进行评估,最终达到了阿拉伯语自然语言处理基准的最新性能水平。
Jul, 2024
近期自然语言处理(NLP)在法律领域的应用面临诸多挑战,包括极长的序列长度、专业词汇仅律师才能理解以及数据不平衡。大型语言模型(LLMs)的出现为 NLP 在法律领域提供了新的机会。本研究旨在量化普通 LLMs 与领域特定模型在法律领域的表现,通过比较三个通用 LLMs(ChatGPT-20b,LLaMA-2-70b 和 Falcon-180b)在 LexGLUE 合同条款分类基准测试集上的零样本性能。尽管 LLMs 未经专门训练法律数据,但我们观察到它们在大多数情况下仍能正确分类主题。然而,我们发现它们的微 F1 / 宏 F1 性能比在法律领域微调的较小模型要低 19.2/26.8%,这凸显了需要更强大的法律领域 LLMs。
Nov, 2023
研究通过将指令调整的大型语言模型知识压缩到较小的模型来降低资源消耗,经证实 可以在 15 个不同的 NLP 测试基准上与竞争对手基线相媲美,而体积约小 10 倍。
Apr, 2023