Jun, 2024

人工评估指南中对漏洞的定义和检测:实现可靠的自然语言生成评估的初步研究

TL;DR通过收集从现有论文中提取的指南注释以及由大型语言模型(LLMs)生成的指南注释,我们提出了第一个人工评估指南数据集,并引入了八种漏洞的分类和组成评估指南的原则。此外,我们还探索了使用 LLMs 检测指南漏洞的方法,并提供了一套增强人工评估可靠性的建议。