二进制代码摘要:ChatGPT/GPT-4 与其他大型语言模型对比评估
大语言模型在代码摘要任务方面,特别是代码生成和摘要具有很高的性能。本文发现,这些模型在每个示例上的性能往往取决于代码和对应参考自然语言描述之间的(子词)标记重叠量。此标记重叠主要出现在代码的函数名称中,并通过移除函数名称与移除代码结构来比较这些模型的相对性能。另外,使用 BLEU 和 BERTScore 等多个评估指标对此问题的洞见非常有限,因为这些指标高度相关。
Apr, 2024
这篇研究论文使用了各种不同的大型语言模型,包括 MPT-7b-instruct,falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型,通过不同的超参数对生成的摘要进行评估,并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集,旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解,同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。
Oct, 2023
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
本研究调查了大规模语言模型(LLM),特别是 GPT-4,在二进制反向工程(RE)领域的能力。通过采用结构化的实验方法,我们分析了 LLM 在解释和说明人工编写的和反编译的代码方面的性能。研究分为两个阶段:第一阶段是基本代码解释,第二阶段是更复杂的恶意软件分析。主要发现表明 LLM 在一般代码理解方面能力强,但在详细技术和安全分析方面的有效性有所不同。本研究强调了 LLM 在反向工程中的潜力和当前的局限性,为未来的应用和改进提供了关键见解。此外,我们还研究了实验方法,如评估方法和数据限制,为该领域的任何未来研究活动提供了技术视野。
Jun, 2024
大型语言模型 (Large Language Models,LLMs) 被广泛应用于各种应用中,代码生成作为一个显著例子。本文聚焦于确定和理解在真实场景中,LLMs 可有效且安全地用于生成高质量代码的条件和环境。通过对四个先进的 LLMs (GPT-3.5 和 GPT-4,ChatGPT,Bard 和 Gemini) 进行比较分析,使用 9 个不同任务评估每个模型的代码生成能力。我们将研究情境化,以代表日常工作中开发人员使用 LLMs 执行常见任务的典型用例。此外,我们强调安全意识,通过使用我们的开发者角色的两个不同版本来表示。总共我们收集了 61 个代码输出并分析了其功能性、安全性、性能、复杂性和可靠性等方面。这些洞见对于理解模型的能力和限制非常重要,并指导未来在自动化代码生成领域的开发和实际应用。
Feb, 2024
基于大型语言模型(LLMs)的研究和应用在生物信息学领域有着巨大潜力和效力,该研究通过分析各种关键生物信息学任务,证明了 LLMs(如 GPT 变体)在给定适当提示的情况下可以成功处理大多数任务,同时也分析了在复杂生物信息学任务中的局限性。
Feb, 2024
本研究通过评估和比较各种闭源和开源大型语言模型,探讨如何有效构建用于实际应用的会议摘要系统。研究结果表明,大多数闭源模型在性能方面更好,但即使在零 - shot 情况下,较小的开源模型如 LLaMA-2(7B 和 13B)仍可达到与大型闭源模型相当的性能。综合考虑闭源模型的隐私问题和使用经过微调的闭源模型的高成本,能够取得竞争性性能的开源模型更适合工业应用。在性能、成本和隐私问题之间取得平衡,LLaMA-2-7B 模型在工业应用中更具前景。总之,本文提供了使用大型语言模型进行实际业务会议摘要的实用见解,突显性能和成本之间的权衡。
Oct, 2023
本文提出了一种新的学习范式,考虑到 LLMS 是常用摘要数据集中的参考标准,用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明,用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型,其性能可以与参考的 LLM 相媲美,通过访问 LLMS 它只需要很小的预算。
May, 2023
本文对大型语言模型(LLMs)进行了全面的代码文档生成比较分析,评估了 GPT-3.5、GPT-4、Bard、Llama2 和 Starchat 等模型在准确度、完整性、相关性、可理解性、可读性和代码文档不同级别生成所花费的时间等参数上的表现。除了 Starchat 以外的所有 LLMs 一致优于原始文档,值得注意的是,闭源模型 GPT-3.5、GPT-4 和 Bard 在各个参数上相比开源 / 源代码可用的 LLMs(包括 LLama 2 和 StarChat)表现更好。就生成时间而言,GPT-4 的持续时间最长,其次是 Llama2、Bard,ChatGPT 和 Starchat 的生成时间相当,此外,文件级别文档在所有参数(时间除外)上表现明显较差,相比内联和函数级别文档。
Dec, 2023
我们研究了大型语言模型在非生成性任务中的应用,以代码克隆检测为例,通过使用基于提示的模式,ChatGPT 在跨语言代码克隆检测中表现出色,并且在单语言代码克隆检测方面与完全微调的模型的性能相当,同时,提示和问题的难度水平对 ChatGPT 的性能有影响。
Jan, 2024