揭示深度学习框架中的代码克隆动态

Apr, 2024

揭示深度学习框架中的代码克隆动态

Unraveling Code Clone Dynamics in Deep Learning Frameworks

Maram Assi, Safwat Hassan, Ying Zou

TL;DR该研究分析了深度学习框架中的代码克隆现象的演化特征，包括长期演化趋势、短期克隆模式以及框架间的代码克隆。研究结果揭示了深度学习框架中存在四种不同的克隆演化趋势，并探讨了克隆对 bug 修复活动的影响。此外，研究还发现了不同框架之间存在功能和架构适应性的文件级别的代码克隆。研究结果为深度学习框架的可靠克隆实践和协同维护提供了启示。

Abstract

Deep Learning (DL) frameworks play a critical role in advancing artificial intelligence, and their rapid growth underscores the need for a comprehensive understanding of software quality and maintainability. DL frameworks, like other systems, are prone to code clones. →

deep learning frameworks code clones evolutionary dimension short-term code cloning cross-framework code clones

发现论文，激发创造

一个旨在表征不同框架和平台下深度学习开发与部署的实证研究

该研究对主流深度学习框架和平台在开发和部署中的影响进行了系统研究，结果表明计算差异可能导致项目的预测准确度下降，部署过程仍存在兼容性和可靠性问题，并通过发现的问题总结出实用的指南以及明确新的研究方向。

Sep, 2019

深度学习框架中图书馆使用和依赖的实证研究

本文研究了深度学习相关软件库的使用情况，以及它们在机器学习工作流程中的依赖关系，并提出了硬件构建者和软件库构建者的一些建议。研究基于 1484 个开源深度学习项目，发现深度学习库的使用趋势正在上升，目前使用最广泛的库组合为 pytorch 和 Scikit-learn，以及 Keras 和 TensorFlow。

Nov, 2022

PyTorch 内部错误的实证研究：一项复制研究

通过研究 PyTorch 库的 bug 识别和修复过程，我们发现 PyTorch 的 bug 更像传统软件项目的 bug，而不是与深度学习特性有关的。同时，我们还将结果与对 TensorFlow 的研究进行了比较，突出了在 bug 识别和修复过程中的相似之处和差异之处。

Jul, 2023

通过无监督相似度度量集成的高级源代码克隆检测

该研究介绍了一种新的集成学习方法来评估代码相似性，结合多种无监督相似度度量的优点。初步结果表明，尽管基于 Transformers 的 CodeBERT 和其变种 GraphCodeBERT 在有充足训练数据的情况下是最佳选择，但在特定的小数据集（最多 500 个样本）的情况下，我们的集成方法达到了类似的结果，而且结果解释性较强，与训练相关的碳足迹明显较低。

May, 2024

机器学习模型中的代码重复对系统的负面影响

本文探究代码重复对机器学习模型的影响，并提出了避免这一问题的最佳实践和工具。

Dec, 2018

深度学习中的万物皆无常，唯进化之光照常

该研究论文探讨了文化进化理论对于解释深度学习成功的重要性，认为深度学习中的重要创新可以被视为发展上的约束，而文化进化可作为解决方法来提高发展的效率和创新的生成率。

May, 2022

源代码是图，而非序列：关于代码克隆检测的跨语言视角

通过比较两个最先进模型 CodeBERT 和 CodeGraph 在两个基准数据集上的表现，本文论证了源代码克隆检测是一个图而非序列，并且基于图的方法在跨语言代码克隆检测上优于基于序列的方法。

Dec, 2023

深度学习框架开发中自动识别假设的探索性研究

研究通过构建一个包含 TensorFlow 和 Keras 代码库的最大假设数据集（AssuEval）并使用七种传统机器学习模型以及一个大型语言模型（ChatGPT）对其进行评估，发现 ALBERT 在假设识别方面表现最好，而 ChatGPT 的性能较差。推荐使用 ALBERT 而非 ChatGPT 来识别深度学习框架开发中的假设。

Jan, 2024

DLPaper2Code: 深度学习研究论文代码自动生成

提出了一种新颖的可扩展方法 DLPaper2Code，用于提取和理解研究论文中可用的深度学习设计流程图和表格，并将其转换为抽象的计算图，最终实时转换为 Keras 和 Caffe 的执行源代码，同时生成的设计可以通过直观的拖放 UI 框架进行评级和编辑。这种方法在模拟数据集上的实验表明，提取出的流程图内容的准确率高达 93％以上。

Nov, 2017

训练可复现的深度学习模型

本文提出了一种系统的方法来训练可重复的深度学习模型，该方法包括评估标准，统一的框架和可重复性指南，能够在不同领域成功复现多个深度学习模型。

Feb, 2022