VHDL-Eval: 用于评估大规模语言模型在 VHDL 代码生成中的框架

Jun, 2024

VHDL-Eval: 用于评估大规模语言模型在 VHDL 代码生成中的框架

VHDL-Eval: A Framework for Evaluating Large Language Models in VHDL Code Generation

Prashanth Vijayaraghavan, Luyao Shi, Stefano Ambrogio, Charles Mackin, Apoorva Nitsure...

TL;DR介绍了一个专门用于评估大型语言模型在 VHDL 代码生成任务中性能的全面评估框架，并强调了现有 LLMs 在 VHDL 代码生成中面临的挑战和改进空间。

Abstract

With the unprecedented advancements in large language models (LLMs), their application domains have expanded to include code generation tasks across various programming languages. While significant progress has b

large language models code generation hardware description languages vhdl evaluation framework

发现论文，激发创造

VerilogEval：用于 Verilog 代码生成的大型语言模型的评估

该论文提出了一种专门为评估大型语言模型在硬件设计和验证中的 Verilog 代码生成性能而设计的基准测试框架，演示了预训练语言模型的 Verilog 代码生成能力可以通过使用 LLM 生成的合成问题 - 代码对进行监督微调来提高。

Sep, 2023

评估面向硬件设计和测试的 LLMs

该研究使用八个代表性基准测试探究了领先技术的对话式大型语言模型在功能和验证目的上生成 Verilog 的能力和限制。结果表明，大型语言模型在硬件模块的设计和测试中具有潜力，并可朝着全自动数字设计流程的进展迈进。

Apr, 2024

HDL 调试器：大型语言模型简化 HDL 调试

HDLdebugger 是一个 LLM 辅助的 HDL 调试框架，通过逆向工程方法生成 HDL 调试数据、带检索增强的生成式搜索引擎以及带检索增强的 LLM 微调方法，自动化和简化芯片设计中的 HDL 调试。在华为提供的 HDL 代码数据集上进行的综合实验表明，HDLdebugger 优于 13 种前沿的 LLM 基准，在 HDL 代码调试方面表现出卓越效果。

Mar, 2024

CreativEval: 评估基于 LLM 的硬件代码生成的创造力

利用 CreativeEval 框架评估大型语言模型在生成硬件设计方面的创造力，结果表明 GPT-3.5 是生成硬件设计中最具创造力的模型。

Apr, 2024

通过严格评估大型语言模型来生成代码，确定 ChatGPT 生成的代码是否真正正确

使用 EvalPlus 框架对大型语言模型进行代码综合基准测试，通过自动生成测试输入来扩充现有基准测试集，发现并降低了 LLM 合成代码的错误率，揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。

May, 2023

全你所需：通过自动化的设计数据增强框架，通过微调 LLMs 进行芯片设计

通过自动生成与 Verilog 和 EDA 脚本对齐的高容量高质量自然语言，本研究提出了一种自动化设计数据增强框架，以改善 LLM 在 Verilog 代码生成和 EDA 脚本生成任务中的表现。结果表明，使用我们的增强方法对 Llama2-13B 和 Llama2-7B 模型进行微调在 Verilog 生成任务中有显著改善，并且与当前最先进的开源 Verilog 生成模型相比，Verilog 生成的准确性从 58.8％提高到 70.6％。与 GPT-3.5 相比，我们的 13B 模型（ChipGPT-FT）在 Verilog 生成和 EDA 脚本生成方面具有更好的性能。

Mar, 2024

一个用于 Verilog 代码生成的多专家大型语言模型架构

最近，使用大型语言模型 (LLMs) 进行 Verilog 代码生成引起了人们的极大兴趣。然而，现有的方法在生成的 Verilog 代码质量方面存在一定的局限性。为了解决这些限制，本文介绍了一种创新的基于多专家的 LLM 架构用于 Verilog 代码生成 (MEV-LLM)。我们的架构独特地集成了多个 LLMs，每个都经过特定的微调，与一个按设计复杂度分级的数据集相对应。它允许更有针对性地学习，直接解决每个类别的 Verilog 代码生成的细微差别。实验证据突出了在句法和功能正确的生成的 Verilog 输出百分比方面的显著改进。这些发现强调了我们方法的效力，在通过机器学习实现自动硬件设计领域中有了一个飞跃。

Apr, 2024

L2CEval: 评估大型语言模型的语言到代码生成能力

最近，大型语言模型（LLMs），特别是那些在代码上进行预训练的模型，展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而，这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务（包括语义解析、数学推理和 Python 编程）中的语言到代码生成能力，分析了可能影响它们性能的因素，如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能，我们还衡量了模型的置信度校准情况，并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时，我们还发布了评估框架和所有模型输出，希望为今后在该领域的进一步研究奠定基础。

Sep, 2023

DevEval: 评估实际软件项目中的代码生成

通过提出一个与开发者在实践项目中的经验相一致的新基准 DevEval，我们评估了五个热门的大型语言模型在代码生成方面的实际能力，揭示了它们的实际表现，并讨论了在实践项目中代码生成的挑战和未来发展方向。

Jan, 2024

VeriGen: Verilog 代码生成的大型语言模型

通过在 Verilog 数据集上微调现有的 Large Language Models（LLMs），我们探索了使用 LLMs 自动生成高质量的 Verilog 代码的能力。微调后的开源 CodeGen-16B 模型在功能正确性上优于最先进的商业 GPT-3.5-turbo 模型，并在多样化和复杂的问题集中表现出竞争性能，尤其在某些场景下显示了对生成正确 Verilog 代码的潜力，突出了内部小型 LLMs 在硬件设计自动化方面的潜力。

Jul, 2023