Apr, 2021

ManyTypes4Py: 用于基于机器学习的类型推导的基准 Python 数据集

TL;DR本文介绍了 ManyTypes4Py,这是一个用于基于机器学习的类型推理的大型 Python 数据集。该数据集包含了 5,382 个 Python 项目,共有超过 869K 的类型注释。为了消除重复偏差的负面影响,去除了重复源代码文件。为了方便机器学习模型的训练和评估,数据集按文件被分为训练、验证和测试集。我们开发了一个轻量级静态分析器管道来从 AST 中提取类型信息,并附带了数据集。使用这个管道,收集的 Python 项目进行了分析,并将 AST 分析结果存储为 JSON 格式的文件。ManyTypes4Py 数据集在 zenodo 上共享,并且其工具在 GitHub 上公开可用。