谁更聪明?基于 AI 的智能合约创建的实证研究
通过比较 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 在其免费版本中生成的编程代码的质量,以一个真实世界的例子和系统的数据集为支撑,本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方面的显著能力,这方面的聊天机器人能力成为一项特别引人注目的分析领域。此外,编程代码的复杂性常常升级到需要验证的难度,强调了我们研究的重要性。本研究旨在揭示大型语言模型在生成高质量编程代码方面的功效和可靠性,这对软件开发领域和其他领域具有重要意义。
May, 2024
研究 ChatGPT 3.5 模型在编写代码方面的能力,评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度,并发现了模型的主要意外行为和限制,旨在寻找发展的潜在领域,并检查自动生成代码对编程语言和技术行业发展的影响。
Aug, 2023
通过将两个不同的大型语言模型融合到一个统一的框架中,我们的研究展示了 SolMover 的先驱性方法,它能够理解编码原则并将此理解应用于将智能合约从 Solidity 转化为资源有限的 Move 语言。通过实证实验,我们的研究结果表明 SolMover 大大提升了性能,并且在缺乏规划能力的第二个语言模型中具备编码专长,使其在代码质量方面取得了优异的成果。同时,我们的分析突出了在 SolMover 框架之外,我们所采用的错误缓解策略在提升代码质量方面的效力。
Mar, 2024
大型语言模型 (Large Language Models,LLMs) 被广泛应用于各种应用中,代码生成作为一个显著例子。本文聚焦于确定和理解在真实场景中,LLMs 可有效且安全地用于生成高质量代码的条件和环境。通过对四个先进的 LLMs (GPT-3.5 和 GPT-4,ChatGPT,Bard 和 Gemini) 进行比较分析,使用 9 个不同任务评估每个模型的代码生成能力。我们将研究情境化,以代表日常工作中开发人员使用 LLMs 执行常见任务的典型用例。此外,我们强调安全意识,通过使用我们的开发者角色的两个不同版本来表示。总共我们收集了 61 个代码输出并分析了其功能性、安全性、性能、复杂性和可靠性等方面。这些洞见对于理解模型的能力和限制非常重要,并指导未来在自动化代码生成领域的开发和实际应用。
Feb, 2024
论文研究了大型语言模型(LLMs)在学术软件工程项目中的实用性,包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明,LLMs 在软件开发的早期阶段,特别是在生成基础代码结构和语法、错误调试方面,可以发挥重要作用。这些发现为我们提供了一个有效利用 LLMs 提高软件工程学生的生产力的框架,并强调了将教育重点转向为学生成功进行人工智能协作的必要性。
Jan, 2024
大型语言模型可以提高对法律系统的访问,但是目前很少有关于它们在进行法律任务方面有效性的实证研究。本研究以涉及加密货币的证券案件为背景,研究了语言模型的法律推理和起草能力。我们使用真实案例的情节喂给 GPT-3.5,并评估其确定正确违规行为的能力。研究发现,GPT-3.5 的法律推理能力较弱,但在法律起草方面表现更好。虽然目前无法取代律师,但这些模型的起草能力可以通过降低法律服务成本,为更多人提供司法公正的机会。本研究是第一个系统研究大型语言模型在诉讼、证券法和加密货币相关不当行为中的法律起草和推理能力的研究。
Aug, 2023
使用自然语言作为一种新的编程语言来描述任务过程,让其易于被人类和 LMMs 理解,并进一步借助 Learning to Program (LP) 方法通过学习来自训练集中的自然语言程序,优化复杂任务的问题解决能力,该方法在 AMPS 和数学两个数据集上的有效性得到验证,证明其性能超过直接零样本测试表现 18.3%。
Apr, 2023
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023