机器学习程序分析 - Ariadne
Python 机器学习领域的综述,研究使用 Python 核心硬件和软件范例(如深度神经网络和可扩展 GPU 计算)来处理海量数据和降低人工智能的使用门槛。
Feb, 2020
本文介绍了一种基于动态分配和极度抽象的库来生成代码抽象化的静态分析 Python 的框架 Serenity,并证明了其在代码补全和自动机器学习等应用中的有效性。
Jan, 2023
Lale 是一个高级 Python 接口库,它简化和统一自动机器学习工具,包括搜索超参数、算法和管道拓扑结构等,并解决了自动化工具的不一致语法和高级功能支持问题。
Jul, 2020
确保机器学习框架的安全性和可靠性对于构建可信的基于人工智能的系统至关重要。我们提出了一个 Python 项目的动态分析流水线,使用 Sydr-Fuzz 工具集来实现模糊测试、语料库精简、崩溃分析和覆盖率收集,在 GitLab CI 中实现流水线集成,以发现和修复机器学习框架中的漏洞。
Mar, 2024
本文介绍了事务 Python 的愿景,其提供了 DART 而无需对用户程序或 Python kernel 进行任何代码修改,通过在对象级别上非侵入性地监视应用程序状态并确定最少量的信息,足以重构整个应用程序。我们对公共 PyTorch 和 scikit-learn 应用程序的概念证明实现进行的评估表明,DART 的开销范围为 1.5%-15.6%。
May, 2023
本研究构建了一个考核数据科学笔记本中 Pandas 数据分析框架的代码生成问题集 ARCADE,并开发了一个 Python 计算笔记本的代码语言模型 PaChiNCo,该模型可以通过少量提示生成更好的代码,提高了模型预测的多样性和可解释性。
Dec, 2022
本文介绍了一种基于符号编程的自动机器学习新方法,将自动机器学习重新定义为符号操作的自动化过程,从而实现了搜索算法、搜索空间和子程序的解耦,提出了 PyGlove Python 库,并以 ImageNet 和 NAS-Bench-101 为案例,证明该库可以快速迭代搜索空间和搜索算法,以产生更好的结果
Jan, 2021
本文综述了机器学习、编程语言和软件工程交叉领域的研究进展,重点介绍了利用代码中大量存在的模式提出可学习概率模型的方法,并提出了基于每个模型的基本设计原理的分类法,用于研究该领域的技术、应用等方面的具体问题、挑战和机遇。
Sep, 2017
本文旨在总结如何应用机器学习技术进行源代码分析的最新研究动态,并回顾 12 类软件工程任务及相应的机器学习技术、工具和数据集。在文献调研的基础上,文章总结了研究观察和发现,并总结了每个任务的通用步骤、机器学习技术和可用数据集和工具,并讨论了这一领域面临的各种挑战。
Oct, 2021
应用和比较不同的机器学习算法,我们基于 Python 编程语言针对源代码漏洞检测问题进行实验评估并展示出双向长短期记忆(BiLSTM)模型的非凡性能(平均准确率 = 98.6%,平均 F-Score=94.7%,平均精确率 = 96.2%,平均召回率 = 93.3%,平均 ROC=99.3%),从而为 Python 源代码的漏洞检测树立了新的基准。
Apr, 2024