AssertionBench: 用于评估大语言模型的断言生成基准
本研究探讨了使用自然语言提示生成 SystemVerilog 声明(用于硬件安全),研究了一种流行的大型语言模型的能力,并设计了一个评估框架来生成各种提示并创建基准套件,该套件由真实硬件设计和相应的黄金参考声明组成。
Jun, 2023
该论文提出了一种专门为评估大型语言模型在硬件设计和验证中的 Verilog 代码生成性能而设计的基准测试框架,演示了预训练语言模型的 Verilog 代码生成能力可以通过使用 LLM 生成的合成问题 - 代码对进行监督微调来提高。
Sep, 2023
该研究使用八个代表性基准测试探究了领先技术的对话式大型语言模型在功能和验证目的上生成 Verilog 的能力和限制。结果表明,大型语言模型在硬件模块的设计和测试中具有潜力,并可朝着全自动数字设计流程的进展迈进。
Apr, 2024
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
基于大型语言模型 (LLMs) 的自动化软件工程在最近的进展中得到了极大的增强。尽管当前的基准测试表明 LLMs 可以完成各种软件工程任务,如人类开发人员一样,但它们的大多数评估仅限于简短的、自包含的算法任务。解决具有挑战性和实际意义的编程任务需要利用多种函数调用作为工具,以有效地实现数据分析和 Web 开发等功能。此外,使用多个工具来解决一个任务需要通过准确理解复杂的指令来进行组合推理。同时实现这两个特征对于 LLMs 来说是一个巨大的挑战。为了评估 LLMs 解决具有挑战性和实际意义的编程任务的能力,我们引入了一个基准测试集 Bench,其中挑战 LLMs 以从 139 个库和 7 个领域中选择 1,140 个细粒度的编程任务中调用多个函数调用作为工具。为了对 LLMs 进行严格评估,每个编程任务包括 5.6 个测试用例,平均分支覆盖率达到 99%。此外,我们提出了 Bench 的自然语言导向变体 Benchi,它将原始的文档字符串自动转换为仅具有基本信息的简短指令。我们对 60 个 LLMs 进行了广泛评估,结果显示 LLMs 还不能准确地遵循复杂指令来使用函数调用,得分最高仅为 60%,明显低于人类的 97%。这些结果强调了在这个领域进一步改进的需要。
Jun, 2024
快速提取、调用函数和数据分析是大型语言模型 (LLMs) 快速生成代码,从提供的数据集中自动化搜索和验证假设的关键。我们通过 DiscoveryBench 这一全面的基准测试来评估这个问题,该基准测试形式化了数据驱动发现的多步骤过程。该基准测试的设计是为了系统评估当前模型在发现任务中的能力,并为改进这些能力提供有用的资源。
Jul, 2024
我们提出了一个名为 RTLLM 的开源基准,用于生成具有自然语言指令的设计 RTL,并使用一个名为 self-planning 的易于使用但效果显著的提示工程技术来提高 GPT-3.5 在我们提出的基准中的性能。
Aug, 2023
将大型语言模型 (LLM) 集成到覆盖指导测试生成 (CDG) 过程中,使用自设计的 Verilog 基准套件,与随机测试比较,实验证明我们的框架在 LLM 的理解范围内优于随机测试,并提出了改进 LLM 理解范围和准确性的提示工程优化。
Jun, 2024
大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题,我们引入了一个基于知识图谱工程的基准评测框架,涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明,尽管具有一定的实用性,大型语言模型在零样本生成知识图谱方面尚不适用。因此,我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制,以及统计数据和可视化工具,以支持指导数据和模型性能的追踪。
Aug, 2023