揭示深度学习框架中的代码克隆动态
该研究对主流深度学习框架和平台在开发和部署中的影响进行了系统研究,结果表明计算差异可能导致项目的预测准确度下降,部署过程仍存在兼容性和可靠性问题,并通过发现的问题总结出实用的指南以及明确新的研究方向。
Sep, 2019
本文研究了深度学习相关软件库的使用情况,以及它们在机器学习工作流程中的依赖关系,并提出了硬件构建者和软件库构建者的一些建议。研究基于 1484 个开源深度学习项目,发现深度学习库的使用趋势正在上升,目前使用最广泛的库组合为 pytorch 和 Scikit-learn,以及 Keras 和 TensorFlow。
Nov, 2022
通过研究 PyTorch 库的 bug 识别和修复过程,我们发现 PyTorch 的 bug 更像传统软件项目的 bug,而不是与深度学习特性有关的。同时,我们还将结果与对 TensorFlow 的研究进行了比较,突出了在 bug 识别和修复过程中的相似之处和差异之处。
Jul, 2023
该研究介绍了一种新的集成学习方法来评估代码相似性,结合多种无监督相似度度量的优点。初步结果表明,尽管基于 Transformers 的 CodeBERT 和其变种 GraphCodeBERT 在有充足训练数据的情况下是最佳选择,但在特定的小数据集(最多 500 个样本)的情况下,我们的集成方法达到了类似的结果,而且结果解释性较强,与训练相关的碳足迹明显较低。
May, 2024
该研究论文探讨了文化进化理论对于解释深度学习成功的重要性,认为深度学习中的重要创新可以被视为发展上的约束,而文化进化可作为解决方法来提高发展的效率和创新的生成率。
May, 2022
通过比较两个最先进模型 CodeBERT 和 CodeGraph 在两个基准数据集上的表现,本文论证了源代码克隆检测是一个图而非序列,并且基于图的方法在跨语言代码克隆检测上优于基于序列的方法。
Dec, 2023
研究通过构建一个包含 TensorFlow 和 Keras 代码库的最大假设数据集(AssuEval)并使用七种传统机器学习模型以及一个大型语言模型(ChatGPT)对其进行评估,发现 ALBERT 在假设识别方面表现最好,而 ChatGPT 的性能较差。推荐使用 ALBERT 而非 ChatGPT 来识别深度学习框架开发中的假设。
Jan, 2024
提出了一种新颖的可扩展方法 DLPaper2Code,用于提取和理解研究论文中可用的深度学习设计流程图和表格,并将其转换为抽象的计算图,最终实时转换为 Keras 和 Caffe 的执行源代码,同时生成的设计可以通过直观的拖放 UI 框架进行评级和编辑。这种方法在模拟数据集上的实验表明,提取出的流程图内容的准确率高达 93%以上。
Nov, 2017