西物:一种基于灵活和可学习的高能物理 LLM
介绍了一个名为 PIXIU 的综合框架,包括首个用于金融领域的基于 fine-tuning 的 LLM(FinMA)、用于 fine-tuning 的指导数据和包含 5 个 NLP 任务和 1 个预测任务的评估基准。
Jun, 2023
MindLLM 是一系列双语轻量级大型语言模型,通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验,并介绍了适用于较小模型的创新指令调整框架,同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。
Oct, 2023
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性,而随机基准线为 25%,这凸显出 LLMs 有显着的改进空间。
Jun, 2023
本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力,通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集,确定了该方法的有效性,并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明,使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀,ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好,但在某些情况下,它们的效益会下降。
May, 2023
使用大型语言模型构建知识库的 LLM2KB 系统有不同于基础模型的参数紧凑的注入模型,通过 LoRA 技术调整指令以便使用 Wikipedia 页面上下文实体,并在 LM-KBC 挑战中取得了 0.6185 的平均 F1 得分。
Aug, 2023
本篇论文中,我们针对地球科学领域开发了第一个大语言模型 K2,并建立了 GeoSignal 数据集用来调整 LLMs 的响应,以及 GeoBenchmark 数据集在地球科学方面对 LLMs 进行评估,并进行了 fine-tuning 操作,实验证明了我们的方法和数据集的有效性。
Jun, 2023
通过构建基准测试并评估通用和专用语言模型,我们发现通用语言模型在原子知识和指令遵循能力方面表现更好,而专用语言模型在提供安全性方面表现较差,在提炼数据方面可以通过通用语言模型学习。此外,我们还发现提炼数据对于专用语言模型的微调效果最佳。
Oct, 2023
HuaTuo 是基于 LLaMA 模型,使用生成的 QA 实例进行监督微调,以提高其在生物医学领域任务中的表现,实验结果表明,HuaTuo 生成的响应具有更加可靠的医学知识。
Apr, 2023
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023