模仿专有 LLM 的虚假承诺

May, 2023

The False Promise of Imitating Proprietary LLMs

Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu...

TL;DR该研究论文分析了在弱语言模型上进行迁移学习的方法，通过仿效 ChatGPT 这样的专有模型，使用较弱的开源模型来廉价模拟专有模型的功能。论文指出，目前这种方法是不可行的，最好的方法是发展更好的基础模型来提高开源模型的性能。

Abstract

An emerging method to cheaply improve a weaker language model is to finetune it on outputs from a stronger model, such as a proprietary system like →

language model chatgpt imitation open-source proprietary system

发现论文，激发创造

开源大型语言模型在文本注释任务中胜过众包工作者并接近 ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT 和人工服务（如 MTurk）在文本标注任务中的表现。发现开源 LLMs 在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然 ChatGPT 在大多数任务中表现最好，但开源 LLMs 在特定任务中也有较高的竞争潜力。

Jul, 2023

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

论开源大型语言模型的工具操作能力

研究了在开源 LLM 中通过一定程度的人工监督和对数据进行生成和调整，将其在工具操作方面提升至与已有的闭源 LLM 相竞争的能力，同时设计了一个工具操纵基准进行了实验，结果表明，在大多数情况下，该方法可使其成功率提高至 90％。

May, 2023

数据污染与评估不端行为在闭源语言模型中的重复现象

使用 OpenAI 的 GPT-3.5 进行了首次系统分析，揭示其在数据污染方面的问题，发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准，并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。

Feb, 2024

ChatGPT 的一周年：开源大规模语言模型是否在迎头赶上？

2022 年底，ChatGPT 的发布在 AI 的研究和商业领域引发了巨大的风潮，通过使用监督微调和强化学习来对大型语言模型进行指令调优，它展示了模型能够回答人类提出的问题并按照广泛的任务进行指令遵循，使得大型语言模型的研究兴趣得到了极大的加强，各种新的大型语言模型层出不穷，包括很多专注于大型语言模型的初创公司。然而，尽管封闭源的大型语言模型（如 OpenAI 的 GPT 和 Anthropic 的 Claude）通常表现出色，但开源大型语言模型的进展也非常迅速，并声称在某些任务上实现了与 ChatGPT 持平甚至更好的结果，这对于研究和商业都具有重要的意义。在本研究中，我们在 ChatGPT 发布一周年之际，全面概述了这一成就，并调查了所有开源大型语言模型声称在各项任务中达到与 ChatGPT 持平或更好的情况。

Nov, 2023

开源自我优化模型中的成本与性能权衡探究

我们提出了一种无外部干扰的非定向迭代自我批判和自我完善的方法，以及一种新颖的评分指标，用于在考虑到性能和成本的情况下为给定任务找到最佳模型。我们的实验表明，规模不同的 SoTA 开源模型在性能方面平均提高 8.2%。这对希望在不牺牲性能和隐私的情况下利用 LLMs 的资源有限和信息敏感环境具有重要意义。

Oct, 2023

所有随机鹦鹉在模仿谁？它们应该告诉我们！

为了解决语言模型生成错误陈述的问题，本研究提出一种新策略：开发具有引用能力的语言模型，可以指向支持其输出的训练数据部分。讨论了适用于此类模型的当前自然语言处理任务以及此类模型可能带来的好处，包括陈述的快速可验证性。并提出了发展具备引用能力的语言模型所需解决的若干子任务。希望引发与构建语言模型的当前方法、特别是面向低资源语言模型和训练数据在解释模型生成过程中的作用的讨论。

Oct, 2023

将大型语言模型凝聚用于将患者匹配到临床试验

探究专有和开源大型语言模型在患者试验匹配任务中的有效性，并证明在有限和合成数据集上进行微调后，开源模型与专有模型性能相当，从而为它们在实际医疗应用中的部署提供了巨大机会。

Dec, 2023

聊天机器人不可靠的文本标注工具

对比研究发现，ChatGPT 和开源语言模型在标注社会科学研究中的文本任务中表现存在显著差异，而监督分类模型一贯表现更优，因此不建议在社会科学研究中使用 ChatGPT 进行实质性的文本标注任务。

Nov, 2023

大型语言模型作为数据预处理器

此研究拓展了大型语言模型（LLMs）的应用，探索了它们在数据预处理中的潜力，包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架，用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。

Aug, 2023