VHDL-Eval: 用于评估大规模语言模型在 VHDL 代码生成中的框架
该论文提出了一种专门为评估大型语言模型在硬件设计和验证中的 Verilog 代码生成性能而设计的基准测试框架,演示了预训练语言模型的 Verilog 代码生成能力可以通过使用 LLM 生成的合成问题 - 代码对进行监督微调来提高。
Sep, 2023
该研究使用八个代表性基准测试探究了领先技术的对话式大型语言模型在功能和验证目的上生成 Verilog 的能力和限制。结果表明,大型语言模型在硬件模块的设计和测试中具有潜力,并可朝着全自动数字设计流程的进展迈进。
Apr, 2024
HDLdebugger 是一个 LLM 辅助的 HDL 调试框架,通过逆向工程方法生成 HDL 调试数据、带检索增强的生成式搜索引擎以及带检索增强的 LLM 微调方法,自动化和简化芯片设计中的 HDL 调试。在华为提供的 HDL 代码数据集上进行的综合实验表明,HDLdebugger 优于 13 种前沿的 LLM 基准,在 HDL 代码调试方面表现出卓越效果。
Mar, 2024
利用 CreativeEval 框架评估大型语言模型在生成硬件设计方面的创造力,结果表明 GPT-3.5 是生成硬件设计中最具创造力的模型。
Apr, 2024
使用 EvalPlus 框架对大型语言模型进行代码综合基准测试,通过自动生成测试输入来扩充现有基准测试集,发现并降低了 LLM 合成代码的错误率,揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。
May, 2023
通过自动生成与 Verilog 和 EDA 脚本对齐的高容量高质量自然语言,本研究提出了一种自动化设计数据增强框架,以改善 LLM 在 Verilog 代码生成和 EDA 脚本生成任务中的表现。结果表明,使用我们的增强方法对 Llama2-13B 和 Llama2-7B 模型进行微调在 Verilog 生成任务中有显著改善,并且与当前最先进的开源 Verilog 生成模型相比,Verilog 生成的准确性从 58.8%提高到 70.6%。与 GPT-3.5 相比,我们的 13B 模型(ChipGPT-FT)在 Verilog 生成和 EDA 脚本生成方面具有更好的性能。
Mar, 2024
最近,使用大型语言模型 (LLMs) 进行 Verilog 代码生成引起了人们的极大兴趣。然而,现有的方法在生成的 Verilog 代码质量方面存在一定的局限性。为了解决这些限制,本文介绍了一种创新的基于多专家的 LLM 架构用于 Verilog 代码生成 (MEV-LLM)。我们的架构独特地集成了多个 LLMs,每个都经过特定的微调,与一个按设计复杂度分级的数据集相对应。它允许更有针对性地学习,直接解决每个类别的 Verilog 代码生成的细微差别。实验证据突出了在句法和功能正确的生成的 Verilog 输出百分比方面的显著改进。这些发现强调了我们方法的效力,在通过机器学习实现自动硬件设计领域中有了一个飞跃。
Apr, 2024
最近,大型语言模型(LLMs),特别是那些在代码上进行预训练的模型,展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而,这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务(包括语义解析、数学推理和 Python 编程)中的语言到代码生成能力,分析了可能影响它们性能的因素,如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能,我们还衡量了模型的置信度校准情况,并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时,我们还发布了评估框架和所有模型输出,希望为今后在该领域的进一步研究奠定基础。
Sep, 2023
通过提出一个与开发者在实践项目中的经验相一致的新基准 DevEval,我们评估了五个热门的大型语言模型在代码生成方面的实际能力,揭示了它们的实际表现,并讨论了在实践项目中代码生成的挑战和未来发展方向。
Jan, 2024
通过在 Verilog 数据集上微调现有的 Large Language Models(LLMs),我们探索了使用 LLMs 自动生成高质量的 Verilog 代码的能力。微调后的开源 CodeGen-16B 模型在功能正确性上优于最先进的商业 GPT-3.5-turbo 模型,并在多样化和复杂的问题集中表现出竞争性能,尤其在某些场景下显示了对生成正确 Verilog 代码的潜力,突出了内部小型 LLMs 在硬件设计自动化方面的潜力。
Jul, 2023