模仿专有 LLM 的虚假承诺
研究比较了开源的大型语言模型(LLMs),ChatGPT 和人工服务(如 MTurk)在文本标注任务中的表现。 发现开源 LLMs 在高效性,透明性,可再现性和数据保护方面具有竞争力,虽然 ChatGPT 在大多数任务中表现最好,但开源 LLMs 在特定任务中也有较高的竞争潜力。
Jul, 2023
本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力,通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集,确定了该方法的有效性,并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明,使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀,ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好,但在某些情况下,它们的效益会下降。
May, 2023
研究了在开源 LLM 中通过一定程度的人工监督和对数据进行生成和调整,将其在工具操作方面提升至与已有的闭源 LLM 相竞争的能力,同时设计了一个工具操纵基准进行了实验,结果表明,在大多数情况下,该方法可使其成功率提高至 90%。
May, 2023
使用 OpenAI 的 GPT-3.5 进行了首次系统分析,揭示其在数据污染方面的问题,发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准,并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。
Feb, 2024
2022 年底,ChatGPT 的发布在 AI 的研究和商业领域引发了巨大的风潮,通过使用监督微调和强化学习来对大型语言模型进行指令调优,它展示了模型能够回答人类提出的问题并按照广泛的任务进行指令遵循,使得大型语言模型的研究兴趣得到了极大的加强,各种新的大型语言模型层出不穷,包括很多专注于大型语言模型的初创公司。然而,尽管封闭源的大型语言模型(如 OpenAI 的 GPT 和 Anthropic 的 Claude)通常表现出色,但开源大型语言模型的进展也非常迅速,并声称在某些任务上实现了与 ChatGPT 持平甚至更好的结果,这对于研究和商业都具有重要的意义。在本研究中,我们在 ChatGPT 发布一周年之际,全面概述了这一成就,并调查了所有开源大型语言模型声称在各项任务中达到与 ChatGPT 持平或更好的情况。
Nov, 2023
我们提出了一种无外部干扰的非定向迭代自我批判和自我完善的方法,以及一种新颖的评分指标,用于在考虑到性能和成本的情况下为给定任务找到最佳模型。我们的实验表明,规模不同的 SoTA 开源模型在性能方面平均提高 8.2%。这对希望在不牺牲性能和隐私的情况下利用 LLMs 的资源有限和信息敏感环境具有重要意义。
Oct, 2023
为了解决语言模型生成错误陈述的问题,本研究提出一种新策略:开发具有引用能力的语言模型,可以指向支持其输出的训练数据部分。讨论了适用于此类模型的当前自然语言处理任务以及此类模型可能带来的好处,包括陈述的快速可验证性。并提出了发展具备引用能力的语言模型所需解决的若干子任务。希望引发与构建语言模型的当前方法、特别是面向低资源语言模型和训练数据在解释模型生成过程中的作用的讨论。
Oct, 2023
探究专有和开源大型语言模型在患者试验匹配任务中的有效性,并证明在有限和合成数据集上进行微调后,开源模型与专有模型性能相当,从而为它们在实际医疗应用中的部署提供了巨大机会。
Dec, 2023
对比研究发现,ChatGPT 和开源语言模型在标注社会科学研究中的文本任务中表现存在显著差异,而监督分类模型一贯表现更优,因此不建议在社会科学研究中使用 ChatGPT 进行实质性的文本标注任务。
Nov, 2023
此研究拓展了大型语言模型(LLMs)的应用,探索了它们在数据预处理中的潜力,包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架,用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。
Aug, 2023