VerilogEval：用于 Verilog 代码生成的大型语言模型的评估

Sep, 2023

VerilogEval：用于 Verilog 代码生成的大型语言模型的评估

VerilogEval: Evaluating Large Language Models for Verilog Code Generation

Mingjie Liu, Nathaniel Pinckney, Brucek Khailany, Haoxing Ren

TL;DR该论文提出了一种专门为评估大型语言模型在硬件设计和验证中的 Verilog 代码生成性能而设计的基准测试框架，演示了预训练语言模型的 Verilog 代码生成能力可以通过使用 LLM 生成的合成问题 - 代码对进行监督微调来提高。

Abstract

The increasing popularity of large language models (LLMs) has paved the way for their application in diverse domains. This paper proposes a benchmarking framework tailored specifically for evaluating LLM performance in the context of →

large language models benchmarking framework verilog code generation hardware design and verification supervised fine-tuning

发现论文，激发创造

VHDL-Eval: 用于评估大规模语言模型在 VHDL 代码生成中的框架

介绍了一个专门用于评估大型语言模型在 VHDL 代码生成任务中性能的全面评估框架，并强调了现有 LLMs 在 VHDL 代码生成中面临的挑战和改进空间。

Jun, 2024

评估面向硬件设计和测试的 LLMs

该研究使用八个代表性基准测试探究了领先技术的对话式大型语言模型在功能和验证目的上生成 Verilog 的能力和限制。结果表明，大型语言模型在硬件模块的设计和测试中具有潜力，并可朝着全自动数字设计流程的进展迈进。

Apr, 2024

VeriGen: Verilog 代码生成的大型语言模型

通过在 Verilog 数据集上微调现有的 Large Language Models（LLMs），我们探索了使用 LLMs 自动生成高质量的 Verilog 代码的能力。微调后的开源 CodeGen-16B 模型在功能正确性上优于最先进的商业 GPT-3.5-turbo 模型，并在多样化和复杂的问题集中表现出竞争性能，尤其在某些场景下显示了对生成正确 Verilog 代码的潜力，突出了内部小型 LLMs 在硬件设计自动化方面的潜力。

Jul, 2023

一个用于 Verilog 代码生成的多专家大型语言模型架构

最近，使用大型语言模型 (LLMs) 进行 Verilog 代码生成引起了人们的极大兴趣。然而，现有的方法在生成的 Verilog 代码质量方面存在一定的局限性。为了解决这些限制，本文介绍了一种创新的基于多专家的 LLM 架构用于 Verilog 代码生成 (MEV-LLM)。我们的架构独特地集成了多个 LLMs，每个都经过特定的微调，与一个按设计复杂度分级的数据集相对应。它允许更有针对性地学习，直接解决每个类别的 Verilog 代码生成的细微差别。实验证据突出了在句法和功能正确的生成的 Verilog 输出百分比方面的显著改进。这些发现强调了我们方法的效力，在通过机器学习实现自动硬件设计领域中有了一个飞跃。

Apr, 2024

CreativEval: 评估基于 LLM 的硬件代码生成的创造力

利用 CreativeEval 框架评估大型语言模型在生成硬件设计方面的创造力，结果表明 GPT-3.5 是生成硬件设计中最具创造力的模型。

Apr, 2024

AssertionBench: 用于评估大语言模型的断言生成基准

使用大型语言模型（LLMs）生成断言的有效性和适用性的定量评估。

Jun, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

通过严格评估大型语言模型来生成代码，确定 ChatGPT 生成的代码是否真正正确

使用 EvalPlus 框架对大型语言模型进行代码综合基准测试，通过自动生成测试输入来扩充现有基准测试集，发现并降低了 LLM 合成代码的错误率，揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。

May, 2023

VerilogReader: 基于 LLM 的硬件测试生成

将大型语言模型 (LLM) 集成到覆盖指导测试生成 (CDG) 过程中，使用自设计的 Verilog 基准套件，与随机测试比较，实验证明我们的框架在 LLM 的理解范围内优于随机测试，并提出了改进 LLM 理解范围和准确性的提示工程优化。

Jun, 2024

DevEval: 评估实际软件项目中的代码生成

通过提出一个与开发者在实践项目中的经验相一致的新基准 DevEval，我们评估了五个热门的大型语言模型在代码生成方面的实际能力，揭示了它们的实际表现，并讨论了在实践项目中代码生成的挑战和未来发展方向。

Jan, 2024