大型语言模型之战: Dolly对LLaMA对Vicuna对Guanaco对Bard对ChatGPT -- 文本到SQL解析比较
本文介绍了 ChatGPT 在 Text-to-SQL 能力上的综合分析,使用了 12 个基准数据集进行实验,结果表明 ChatGPT 在 Text-to-SQL 上有着强大的能力,在零样本情况下甚至超过了 SOTA 模型,在实际应用中具有潜在价值,并公开了生成的数据集。
Mar, 2023
本文通过评估ChatGPT在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的LLM研究提供思路。作者发现ChatGPT能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
研究比较了开源的大型语言模型(LLMs),ChatGPT和人工服务(如MTurk)在文本标注任务中的表现。 发现开源LLMs在高效性,透明性,可再现性和数据保护方面具有竞争力,虽然ChatGPT在大多数任务中表现最好,但开源LLMs在特定任务中也有较高的竞争潜力。
Jul, 2023
该论文比较了三种大型语言模型,OpenAI ChatGPT、微软Bing Chat和谷歌Bard,在VNHSGE英语数据集上的性能,结果显示BingChat优于ChatGPT和Bard。这项研究的结果有助于理解大型语言模型在英语教育中的潜力。
Jul, 2023
使用FLORES-200基准测试,我们提供了首个针对204种语言的实验证据和机器翻译成本分析,发现GPT模型在某些高资源语言上接近或超过传统机器翻译模型的性能,但在低资源语言上表现一直落后于传统机器翻译,对于我们覆盖的语言中的84.1%,ChatGPT的翻译能力低于传统机器翻译模型水平。我们的分析表明,语言的资源水平是决定ChatGPT相对翻译能力的最重要特征,并且暗示ChatGPT在低资源语言和非洲语言上处于劣势。
Sep, 2023
近期,在自然语言处理方面的最新进展中,大型语言模型(LLM)得到了广泛应用,它们在上下文学习下表现出良好性能,甚至适用于未知的任务和语言。然而,它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型(mT0,LLaMa 2和GPT-4)在30种非洲语言上的五个任务(新闻主题分类,情感分类,机器翻译,问答和命名实体识别)的表现。结果显示,所有的大型语言模型在非洲语言上的表现都低于水平,与英语等高资源语言相比,性能差距较大。我们发现,GPT-4在分类任务上表现平均或令人印象深刻,但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是,我们发现mT0在非洲语言上的跨语言问答表现最佳,超过了最先进的有监督模型(即,微调的mT5)和GPT-4的表现。总体而言,由于LLaMa 2具有有限的多语言能力和以英语为中心的预训练语料库,因此其表现最差。总的来说,我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表,因为这些模型越来越受欢迎。
Nov, 2023
本研究介绍一种名为CodeS的开源语言模型,旨在解决Text-to-SQL任务中现有限制,并通过增量预训练、模式构建和双向数据增强等方法提升了CodeS在SQL生成能力上的表现,并在多个数据集上取得了新的最先进准确性和鲁棒性。
Feb, 2024
通过构建新数据集和提出五个评估任务,全面评估不同方法在文本到SQL过程中的性能,揭示了大型语言模型之间的性能差异,并提出了针对每个任务的最佳上下文学习解决方案,为改进基于大型语言模型的文本到SQL系统的开发提供了有价值的见解。
Mar, 2024
我们提出了一种针对开源大型语言模型在Text-to-SQL任务中的上下文理解和响应连贯性问题的系统方法,包括对开源大型语言模型在Text-to-SQL任务中的全面评估,以及用于有效问题表示的openprompt策略、监督微调的新策略、步骤推理中Chain-of-Thought的优势探索和用于增强少样本学习的openexample方法。此外,我们引入了一些高效的技术,如可变长度的开发数据库架构、目标列截断和示例列截断,解决了大规模数据库中的挑战。我们的研究结果强调了对监督微调对上下文学习能力的影响进行进一步研究的必要性。值得注意的是,我们的方法显著提高了Llama2-7B在BIRD-Dev数据集上的性能,从2.54%提高到41.04%,Code Llama-7B在BIRD-Dev数据集上的性能甚至超过了GPT-4(46.35%)。
May, 2024
本研究探讨了大型语言模型在文本到代码生成中的表现,特别是对比了Bard、BingChat、ChatGPT、Llama2和Code Llama等五种先进模型的能力。研究发现,ChatGPT在处理编程挑战方面远胜于其他模型,包括专门针对代码生成的Code Llama,展现出明显的性能优势。
Sep, 2024