Mini-Giants: 小型语言模型和开源的双赢
该研究通过将文本输入转换为包含任务描述的填空问题,并结合梯度优化和利用未标记数据,成功地创造了小型语言模型,达到了与 GPT-3 相似的性能,为小型语言模型的成功应用提供了关键因素。
Sep, 2020
本文介绍了 TinyStories 数据集和一种新的评估语言模型的方法,该数据集使用 GPT-3.5 和 GPT-4 生成,只包含 3 到 4 岁儿童通常理解的单词。使用 TinyStories 可以训练和评估比现有模型小得多的语言模型,并引入新的评估范式来评估这些模型的语言能力和多维度的得分,例如语法、创造性和连贯性等。这可以促进低资源或专业领域的语言模型的发展、分析和研究,并提高对于语言模型能力的认识。
May, 2023
研究比较了开源的大型语言模型(LLMs),ChatGPT 和人工服务(如 MTurk)在文本标注任务中的表现。 发现开源 LLMs 在高效性,透明性,可再现性和数据保护方面具有竞争力,虽然 ChatGPT 在大多数任务中表现最好,但开源 LLMs 在特定任务中也有较高的竞争潜力。
Jul, 2023
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
Mar, 2023
2022 年底,ChatGPT 的发布在 AI 的研究和商业领域引发了巨大的风潮,通过使用监督微调和强化学习来对大型语言模型进行指令调优,它展示了模型能够回答人类提出的问题并按照广泛的任务进行指令遵循,使得大型语言模型的研究兴趣得到了极大的加强,各种新的大型语言模型层出不穷,包括很多专注于大型语言模型的初创公司。然而,尽管封闭源的大型语言模型(如 OpenAI 的 GPT 和 Anthropic 的 Claude)通常表现出色,但开源大型语言模型的进展也非常迅速,并声称在某些任务上实现了与 ChatGPT 持平甚至更好的结果,这对于研究和商业都具有重要的意义。在本研究中,我们在 ChatGPT 发布一周年之际,全面概述了这一成就,并调查了所有开源大型语言模型声称在各项任务中达到与 ChatGPT 持平或更好的情况。
Nov, 2023
通过使用小规模模型并结合高质量的数据集,我们的研究探索了如何提升小型语言模型在解决小学数学问题时的数学推理能力,并通过引入 TinyGSM 数据集和验证器的方法,实现了在 GSM8K 基准测试中超过 80% 的准确率,同时在模型规模上远远超过现有模型。
Dec, 2023
通过本综述论文,我们对大规模 GPT 模型的可替代开源模型进行了研究,重点关注用户友好和相对小型的模型,以促进更容易部署和访问。通过这个广泛的调查,我们旨在为研究人员、实践者和爱好者提供对大规模 GPT 模型的用户友好和相对小型的开源模型的深入了解,包括它们的当前状态、挑战和未来研究方向,以激发更高效、易于访问和多功能的 GPT 模型的开发,以满足更广泛的科学界需求,推动通用人工智能领域的发展。
Aug, 2023
通过系统评估六种主流大型语言模型在九个基准数据集上的文本到 SQL 解析能力,发现这些开源模型在性能上明显不及 GPT-3.5 等闭源模型,强调了填补这些模型之间性能差距的进一步工作的需求。
Oct, 2023
通过对 ChatGPT、GPT-4、Gemini、Mixtral 和 Claude 在不同的会话问答语料库中生成的回答进行评估,本研究得出了这些最先进的语言模型的综合比较和评估结果,揭示了它们的能力,并突出了改进的潜在领域。
May, 2024