谁更聪明？基于 AI 的智能合约创建的实证研究

Aug, 2023

谁更聪明？基于 AI 的智能合约创建的实证研究

Who is Smarter? An Empirical Study of AI-based Smart Contract Creation

Rabimba Karanjai, Edward Li, Lei Xu, Weidong Shi

TL;DR通过系统评估大型语言模型在智能合约代码生成方面的质量，研究发现生成的智能合约存在安全漏洞以及代码质量和正确性受到影响，但也提出了改进过程、质量和安全性的多个潜在研究方向。

Abstract

The introduction of large language models (LLMs) like ChatGPT and Google Palm2 for smart contract generation seems to be the first well-established instance of an AI pair programmer. LLMs have access to a large n

large language models smart contract generation code quality security bugs research directions

发现论文，激发创造

大型语言模型的编程技能评估

通过比较 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 在其免费版本中生成的编程代码的质量，以一个真实世界的例子和系统的数据集为支撑，本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方面的显著能力，这方面的聊天机器人能力成为一项特别引人注目的分析领域。此外，编程代码的复杂性常常升级到需要验证的难度，强调了我们研究的重要性。本研究旨在揭示大型语言模型在生成高质量编程代码方面的功效和可靠性，这对软件开发领域和其他领域具有重要意义。

May, 2024

使用 ChatGPT 3.5 进行代码生成的十种编程语言的比较研究

研究 ChatGPT 3.5 模型在编写代码方面的能力，评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度，并发现了模型的主要意外行为和限制，旨在寻找发展的潜在领域，并检查自动生成代码对编程语言和技术行业发展的影响。

Aug, 2023

教机器编程：用 LLMs 进行智能合约翻译

通过将两个不同的大型语言模型融合到一个统一的框架中，我们的研究展示了 SolMover 的先驱性方法，它能够理解编码原则并将此理解应用于将智能合约从 Solidity 转化为资源有限的 Move 语言。通过实证实验，我们的研究结果表明 SolMover 大大提升了性能，并且在缺乏规划能力的第二个语言模型中具备编码专长，使其在代码质量方面取得了优异的成果。同时，我们的分析突出了在 SolMover 框架之外，我们所采用的错误缓解策略在提升代码质量方面的效力。

Mar, 2024

偶尔安全性：代码生成助理的比较分析

大型语言模型 (Large Language Models，LLMs) 被广泛应用于各种应用中，代码生成作为一个显著例子。本文聚焦于确定和理解在真实场景中，LLMs 可有效且安全地用于生成高质量代码的条件和环境。通过对四个先进的 LLMs (GPT-3.5 和 GPT-4，ChatGPT，Bard 和 Gemini) 进行比较分析，使用 9 个不同任务评估每个模型的代码生成能力。我们将研究情境化，以代表日常工作中开发人员使用 LLMs 执行常见任务的典型用例。此外，我们强调安全意识，通过使用我们的开发者角色的两个不同版本来表示。总共我们收集了 61 个代码输出并分析了其功能性、安全性、性能、复杂性和可靠性等方面。这些洞见对于理解模型的能力和限制非常重要，并指导未来在自动化代码生成领域的开发和实际应用。

Feb, 2024

软件工程项目中对 LLMs 的使用和感知的实证研究

论文研究了大型语言模型（LLMs）在学术软件工程项目中的实用性，包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明，LLMs 在软件开发的早期阶段，特别是在生成基础代码结构和语法、错误调试方面，可以发挥重要作用。这些发现为我们提供了一个有效利用 LLMs 提高软件工程学生的生产力的框架，并强调了将教育重点转向为学生成功进行人工智能协作的必要性。

Jan, 2024

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

加密货币证券案件中的大型语言模型：ChatGPT 能否替代律师？

大型语言模型可以提高对法律系统的访问，但是目前很少有关于它们在进行法律任务方面有效性的实证研究。本研究以涉及加密货币的证券案件为背景，研究了语言模型的法律推理和起草能力。我们使用真实案例的情节喂给 GPT-3.5，并评估其确定正确违规行为的能力。研究发现，GPT-3.5 的法律推理能力较弱，但在法律起草方面表现更好。虽然目前无法取代律师，但这些模型的起草能力可以通过降低法律服务成本，为更多人提供司法公正的机会。本研究是第一个系统研究大型语言模型在诉讼、证券法和加密货币相关不当行为中的法律起草和推理能力的研究。

Aug, 2023

自然语言编程学习

使用自然语言作为一种新的编程语言来描述任务过程，让其易于被人类和 LMMs 理解，并进一步借助 Learning to Program (LP) 方法通过学习来自训练集中的自然语言程序，优化复杂任务的问题解决能力，该方法在 AMPS 和数学两个数据集上的有效性得到验证，证明其性能超过直接零样本测试表现 18.3%。

Apr, 2023

聊天机器人的人工智能革命：来自一项随机对照实验的证明

通过一个领域性的随机控制试验，评估基于大型语言模型的工具在提供无监控支持服务方面的有效性。

Jan, 2024

关于 LLMs 的隐含风险评估：关于鲁棒性，一致性和可信度的实证研究

本研究使用自动化工作流程，对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询，得出了 LLM 在稳健性、一致性和可信度方面存在的问题，提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。

May, 2023