Jun, 2024

使用变形提示测试验证 LLM 生成的程序

TL;DR我们提出了一种称为变质提示测试的新颖解决方案,用于解决由大型语言模型生成的代码质量和正确性所引发的挑战,并在 HumanEval 评估中显示,该方法能够检测到由 GPT-4 生成的错误程序的 75%,误报率为 8.6%。