实验室规模的 AI：在资源有限的情况下，开放权重模型与 ChatGPT 就竞争力不相上下

May, 2024

实验室规模的 AI：在资源有限的情况下，开放权重模型与 ChatGPT 就竞争力不相上下

Laboratory-Scale AI: Open-Weight Models are Competitive with ChatGPT Even in Low-Resource Settings

Robert Wolfe, Isaac Slaughter, Bin Han, Bingbing Wen, Yiwei Yang...

TL;DR使用较小的开放权重模型在低成本资源环境中实现与高成本封闭权重模型相媲美的性能，同时满足透明度、领域适应性和生成性标准的需求，并针对偏见、隐私和虚构风险等实际问题进行了实验验证。

Abstract

The rapid proliferation of generative ai has raised questions about the competitiveness of lower-parameter, locally tunable, open-weight models relative to high-parameter, API-guarded, →

generative ai open-weight models closed-weight models transparency domain adaptation

发现论文，激发创造

揭开 ChatGPT：跟踪指导调整的文本生成器中的开放性、透明度和问责制

本文简要回顾了 OpenAI 的 ChatGPT 及其开源类似项目，并评估它们在代码可访问性、数据、许可证、训练以及 fine-tuning 等方面的开放程度。我们发现，尽管有许多声称为 “开源” 的项目，但是其中大部分存在不确定的数据来源以及缺乏充分的文档说明，缺少重要的注释调整，有意识的科学文档非常罕见，而这些因素在公平性和责任性方面都显得非常重要。

Jul, 2023

用戶友好且開源的大型 GPT 模型的研究：對語言、多模態和科學 GPT 模型的調查

通过本综述论文，我们对大规模 GPT 模型的可替代开源模型进行了研究，重点关注用户友好和相对小型的模型，以促进更容易部署和访问。通过这个广泛的调查，我们旨在为研究人员、实践者和爱好者提供对大规模 GPT 模型的用户友好和相对小型的开源模型的深入了解，包括它们的当前状态、挑战和未来研究方向，以激发更高效、易于访问和多功能的 GPT 模型的开发，以满足更广泛的科学界需求，推动通用人工智能领域的发展。

Aug, 2023

规模逐步缩小：以成本效益分析替换 OpenAI GPT-4 与自托管的开源 SLM 在生产中

本文介绍了一种系统评估方法，用于替代现有专有语言模型应用程序接口（APIs）的现代开源小语言模型，并进行了对比测试，发现其具有竞争力的结果质量，显著的性能一致性改进和降低 5 倍至 29 倍的成本。

Dec, 2023

ChatGPT 的一周年：开源大规模语言模型是否在迎头赶上？

2022 年底，ChatGPT 的发布在 AI 的研究和商业领域引发了巨大的风潮，通过使用监督微调和强化学习来对大型语言模型进行指令调优，它展示了模型能够回答人类提出的问题并按照广泛的任务进行指令遵循，使得大型语言模型的研究兴趣得到了极大的加强，各种新的大型语言模型层出不穷，包括很多专注于大型语言模型的初创公司。然而，尽管封闭源的大型语言模型（如 OpenAI 的 GPT 和 Anthropic 的 Claude）通常表现出色，但开源大型语言模型的进展也非常迅速，并声称在某些任务上实现了与 ChatGPT 持平甚至更好的结果，这对于研究和商业都具有重要的意义。在本研究中，我们在 ChatGPT 发布一周年之际，全面概述了这一成就，并调查了所有开源大型语言模型声称在各项任务中达到与 ChatGPT 持平或更好的情况。

Nov, 2023

开源大型语言模型在文本注释任务中胜过众包工作者并接近 ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT 和人工服务（如 MTurk）在文本标注任务中的表现。发现开源 LLMs 在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然 ChatGPT 在大多数任务中表现最好，但开源 LLMs 在特定任务中也有较高的竞争潜力。

Jul, 2023

低资源开放领域生成式聊天机器人的适应

我们提出了一种通用的框架，该框架可以在保持低参数的前提下，同时保持聊天机器人的通用知识和特定领域的能力，并可以在交互中实现无缝转换，并通过对话进行参考跟踪和去除不一致的回应来改善数字助手的交互效果。

Aug, 2021

微调的「小型」LLM 在文本分类中仍显著优于零样本生成式 AI 模型

通过比较生成型 AI 模型和经过细调的 LLMs，在文本分类任务中，利用应用特定训练数据进行细调的模型表现优异，从而验证了生成型 AI 模型在兑现其承诺方面存在问题。

Jun, 2024

基于生成型 AI 的自动文本评分技术在性能较低的 GPU 环境中的应用

通过分析开源的小型生成语言模型（GLMs）在自动化文本评分（ATS）中的性能和效率，结果表明 GLMs 可以进行适当的微调以达到足够的性能。此外，在分析模型生成反馈能力方面，虽然由模型生成的反馈有潜力，但需要更严格的针对特定使用情况的评估。

Jul, 2024

h2oGPT：大规模语言模型的民主化

介绍了一种基于 h2oGPT 平台的开源语言模型，旨在创建开源的比闭源 GPT 更好的大型语言模型，这将促进 AI 的发展并使其更加可靠和透明。

Jun, 2023

开放、封闭还是小型语言模型用于文本分类？

这项研究通过评估三类模型在八个数据集上完成了三个不同任务（命名实体识别、政党预测和虚假信息检测）的性能，发现大型语言模型在某些任务上表现出色，开源模型通过微调与封闭源模型相媲美，而监督较小的模型（如 RoBERTa）在许多数据集上能够达到甚至超过生成型模型的性能，但封闭模型在需要最强泛化能力的难任务中仍然保持优势，这强调了模型选择在任务需求中的重要性。

Aug, 2023