ApacheJIT: 一份用于即时缺陷预测的大型数据集
通过运用漏洞评估工具,我们从国家漏洞数据库和专为开发监测的 Web 资源中手动收集并精选了一批开源软件漏洞的数据集,共映射到 205 个不同的开源 Java 项目中的 624 个漏洞, 并且可通过支持脚本自动检索相应的存储库的实际内容,并补充每个实例可用的属性,这已被成功用来训练分类器,以自动识别代码存储库中的安全关联提交。
Feb, 2019
通过提供一个可完全执行的、由 450,000 个错误 / 修复的代码对组成的数据集及其测试 / 编译基础设施和详细的 bug 类型标签,本文旨在促进神经程序修复技术向可执行代码表示转型,提高基于执行的特征的使用,并通过包括多种不同语言的数据集,平衡当前 Automated Program Repair 数据集和基准测试方向中 Java 语言的主导地位。
Apr, 2023
提供了一个数据集,包含来自 1,000 个流行开源 Java 项目中挖掘的 153,652 个单语句代码修复,注释了它们是否与 16 个由先进程序修复技术启发的 Bug 模板之一相匹配,结果显示简单的 Bug 修复模板匹配率约为 33%,且模板配对 Bug 在最新版本的项目中每 1,600-2,500 行代码出现频率约为一个 Bug。希望该数据集对程序修复和实证软件工程研究都能有所帮助。
May, 2019
本文介绍了 ManyTypes4Py,这是一个用于基于机器学习的类型推理的大型 Python 数据集。该数据集包含了 5,382 个 Python 项目,共有超过 869K 的类型注释。为了消除重复偏差的负面影响,去除了重复源代码文件。为了方便机器学习模型的训练和评估,数据集按文件被分为训练、验证和测试集。我们开发了一个轻量级静态分析器管道来从 AST 中提取类型信息,并附带了数据集。使用这个管道,收集的 Python 项目进行了分析,并将 AST 分析结果存储为 JSON 格式的文件。ManyTypes4Py 数据集在 zenodo 上共享,并且其工具在 GitHub 上公开可用。
Apr, 2021
该论文介绍了一个专门设计用于评估微服务应用中根本原因分析的数据集,该数据集涵盖了分布式应用程序在 5 分钟间隔内发出的延迟、请求和可用性指标。此外,数据集还包括 68 个性能问题,这些问题通过增加延迟和降低系统的可用性来减少。我们展示了如何使用该数据集评估涵盖了不同因果和非因果特征的各种方法的准确性。我们希望该可在 https URL 上获取的新数据集能够进一步发展该重要领域中的技术。
Nov, 2023
该研究提出了用于日本法律判决预测的首个数据集,即日本侵权案例数据集(JTD),其中包含二个任务:侵权预测和相关性抽取。JTD 基于 41 名法律专家对 3477 个日本民法判决进行了标注,共获得 7978 个实例和 59697 个涉案方的主张。实验结果表明所提出的两个任务的可行性,并且通过法律专家的错误分析确定了错误来源并提出了未来的研究方向。
Dec, 2023
本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack,以及如何构建、管理和使用该数据集来训练大型语言模型,通过在 Python 子集上训练 350M 参数解码器,在文本到代码的基准测试上取得了有前途的结果。
Nov, 2022
通过引入名为 ConDefects 的数据集,我们为故障定位和程序修复这两个任务的研究提供了一个全新的数据集,该数据集消除了已有广泛采用的基准测试中的重叠,并提供了包括 Java 和 Python 故障程序以及其修复版本在内的 1,254 个故障程序和 1,625 个故障程序。
Oct, 2023
本文介绍一种新的使用 BERT 架构改进自我承认技术债务检测的方法,并比较之前的深度学习方法,发现在跨项目情况下,该方法的性能优于之前的所有方法。
Mar, 2023