VerilogEval:用于 Verilog 代码生成的大型语言模型的评估
介绍了一个专门用于评估大型语言模型在 VHDL 代码生成任务中性能的全面评估框架,并强调了现有 LLMs 在 VHDL 代码生成中面临的挑战和改进空间。
Jun, 2024
该研究使用八个代表性基准测试探究了领先技术的对话式大型语言模型在功能和验证目的上生成 Verilog 的能力和限制。结果表明,大型语言模型在硬件模块的设计和测试中具有潜力,并可朝着全自动数字设计流程的进展迈进。
Apr, 2024
通过在 Verilog 数据集上微调现有的 Large Language Models(LLMs),我们探索了使用 LLMs 自动生成高质量的 Verilog 代码的能力。微调后的开源 CodeGen-16B 模型在功能正确性上优于最先进的商业 GPT-3.5-turbo 模型,并在多样化和复杂的问题集中表现出竞争性能,尤其在某些场景下显示了对生成正确 Verilog 代码的潜力,突出了内部小型 LLMs 在硬件设计自动化方面的潜力。
Jul, 2023
最近,使用大型语言模型 (LLMs) 进行 Verilog 代码生成引起了人们的极大兴趣。然而,现有的方法在生成的 Verilog 代码质量方面存在一定的局限性。为了解决这些限制,本文介绍了一种创新的基于多专家的 LLM 架构用于 Verilog 代码生成 (MEV-LLM)。我们的架构独特地集成了多个 LLMs,每个都经过特定的微调,与一个按设计复杂度分级的数据集相对应。它允许更有针对性地学习,直接解决每个类别的 Verilog 代码生成的细微差别。实验证据突出了在句法和功能正确的生成的 Verilog 输出百分比方面的显著改进。这些发现强调了我们方法的效力,在通过机器学习实现自动硬件设计领域中有了一个飞跃。
Apr, 2024
利用 CreativeEval 框架评估大型语言模型在生成硬件设计方面的创造力,结果表明 GPT-3.5 是生成硬件设计中最具创造力的模型。
Apr, 2024
使用 EvalPlus 框架对大型语言模型进行代码综合基准测试,通过自动生成测试输入来扩充现有基准测试集,发现并降低了 LLM 合成代码的错误率,揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。
May, 2023
将大型语言模型 (LLM) 集成到覆盖指导测试生成 (CDG) 过程中,使用自设计的 Verilog 基准套件,与随机测试比较,实验证明我们的框架在 LLM 的理解范围内优于随机测试,并提出了改进 LLM 理解范围和准确性的提示工程优化。
Jun, 2024
通过提出一个与开发者在实践项目中的经验相一致的新基准 DevEval,我们评估了五个热门的大型语言模型在代码生成方面的实际能力,揭示了它们的实际表现,并讨论了在实践项目中代码生成的挑战和未来发展方向。
Jan, 2024