May, 2024
组合:用于机器学习的自动二值数据集构建
Assemblage: Automatic Binary Dataset Construction for Machine Learning
Chang Liu, Rebecca Saul, Yihao Sun, Edward Raff, Maya Fuchs...
TL;DRAssemblage 是一个可扩展的基于云的分布式系统,用于获取高质量的二进制语料库,以训练二进制分析的先进模型。它可以通过爬取、配置和构建 Windows PE 二进制文件来获取高质量的二进制语料库,并支持用户发布数据集的 “recipes” 和提取各种特征。