实验室规模的 AI:在资源有限的情况下,开放权重模型与 ChatGPT 就竞争力不相上下
本文简要回顾了 OpenAI 的 ChatGPT 及其开源类似项目,并评估它们在代码可访问性、数据、许可证、训练以及 fine-tuning 等方面的开放程度。我们发现,尽管有许多声称为 “开源” 的项目,但是其中大部分存在不确定的数据来源以及缺乏充分的文档说明,缺少重要的注释调整,有意识的科学文档非常罕见,而这些因素在公平性和责任性方面都显得非常重要。
Jul, 2023
通过本综述论文,我们对大规模 GPT 模型的可替代开源模型进行了研究,重点关注用户友好和相对小型的模型,以促进更容易部署和访问。通过这个广泛的调查,我们旨在为研究人员、实践者和爱好者提供对大规模 GPT 模型的用户友好和相对小型的开源模型的深入了解,包括它们的当前状态、挑战和未来研究方向,以激发更高效、易于访问和多功能的 GPT 模型的开发,以满足更广泛的科学界需求,推动通用人工智能领域的发展。
Aug, 2023
本文介绍了一种系统评估方法,用于替代现有专有语言模型应用程序接口(APIs)的现代开源小语言模型,并进行了对比测试,发现其具有竞争力的结果质量,显著的性能一致性改进和降低 5 倍至 29 倍的成本。
Dec, 2023
2022 年底,ChatGPT 的发布在 AI 的研究和商业领域引发了巨大的风潮,通过使用监督微调和强化学习来对大型语言模型进行指令调优,它展示了模型能够回答人类提出的问题并按照广泛的任务进行指令遵循,使得大型语言模型的研究兴趣得到了极大的加强,各种新的大型语言模型层出不穷,包括很多专注于大型语言模型的初创公司。然而,尽管封闭源的大型语言模型(如 OpenAI 的 GPT 和 Anthropic 的 Claude)通常表现出色,但开源大型语言模型的进展也非常迅速,并声称在某些任务上实现了与 ChatGPT 持平甚至更好的结果,这对于研究和商业都具有重要的意义。在本研究中,我们在 ChatGPT 发布一周年之际,全面概述了这一成就,并调查了所有开源大型语言模型声称在各项任务中达到与 ChatGPT 持平或更好的情况。
Nov, 2023
研究比较了开源的大型语言模型(LLMs),ChatGPT 和人工服务(如 MTurk)在文本标注任务中的表现。 发现开源 LLMs 在高效性,透明性,可再现性和数据保护方面具有竞争力,虽然 ChatGPT 在大多数任务中表现最好,但开源 LLMs 在特定任务中也有较高的竞争潜力。
Jul, 2023
我们提出了一种通用的框架,该框架可以在保持低参数的前提下,同时保持聊天机器人的通用知识和特定领域的能力,并可以在交互中实现无缝转换,并通过对话进行参考跟踪和去除不一致的回应来改善数字助手的交互效果。
Aug, 2021
通过比较生成型 AI 模型和经过细调的 LLMs,在文本分类任务中,利用应用特定训练数据进行细调的模型表现优异,从而验证了生成型 AI 模型在兑现其承诺方面存在问题。
Jun, 2024
通过分析开源的小型生成语言模型(GLMs)在自动化文本评分(ATS)中的性能和效率,结果表明 GLMs 可以进行适当的微调以达到足够的性能。此外,在分析模型生成反馈能力方面,虽然由模型生成的反馈有潜力,但需要更严格的针对特定使用情况的评估。
Jul, 2024
这项研究通过评估三类模型在八个数据集上完成了三个不同任务(命名实体识别、政党预测和虚假信息检测)的性能,发现大型语言模型在某些任务上表现出色,开源模型通过微调与封闭源模型相媲美,而监督较小的模型(如 RoBERTa)在许多数据集上能够达到甚至超过生成型模型的性能,但封闭模型在需要最强泛化能力的难任务中仍然保持优势,这强调了模型选择在任务需求中的重要性。
Aug, 2023