提升深度学习错误的可复制性:实证研究
分析软件工程领域的软件错误预测是否存在与其他机器学习领域相似的可复现性问题,发现大部分研究文章缺乏关键的复现元素,呼吁改进研究实践以确保基于机器学习的研究的可复现性。
Feb, 2024
通过研究 PyTorch 库的 bug 识别和修复过程,我们发现 PyTorch 的 bug 更像传统软件项目的 bug,而不是与深度学习特性有关的。同时,我们还将结果与对 TensorFlow 的研究进行了比较,突出了在 bug 识别和修复过程中的相似之处和差异之处。
Jul, 2023
通过研究深度学习研究的实施因素对结果的影响以及如何影响深度学习研究的可重复性,我们发现硬件和软件环境的变化会导致相同确定性示例的准确性范围大于 6%,建议研究人员在不同的硬件和软件环境中多次运行实验以验证结果不受影响。
Dec, 2023
面对研究的可重复性危机,机器学习和人工智能研究也面临同样的问题。虽然研究社区已经提出了不同的解决方案如使用机器学习平台,但机器学习驱动的研究的可重复性水平并没有显著提高。本文通过综述相关文献,讨论机器学习驱动研究中的可重复性问题和障碍,并探索工具、实践和干预等潜在驱动因素,提供对于支持机器学习可重复性的不同解决方案可行性的决策支持。
Jul, 2023
DeepDebug 是一种使用大型预训练变压器的自动调试方法,可通过训练反转的提交数据来生成人工合成缺陷,并通过将这些缺陷应用于功能测试,提供调试信息并改进模型的预训练,并在 QuixBugs 测试中取得良好成果。
May, 2021
本文通过案例研究验证了复现性危机对对抗性鲁棒性研究的影响,提出了解决方案,强调了合作和标准化努力的必要性,并倡导了确保研究结果可靠和有效的最佳实践。
May, 2024
深度学习技术在软件开发过程中的应用,特别是在自动化代码审查、错误预测和测试生成,以提高代码质量和开发效率方面进行了研究。通过一系列的实证研究,比较了使用深度学习工具的实验组和使用传统方法的对照组在代码错误率和项目完成时间方面的差异。结果表明实验组有明显改善,验证了深度学习技术的有效性。研究还讨论了深度学习在软件开发中的潜在优化点、方法论和技术挑战,以及如何将这些技术融入现有的软件开发工作流程。
Apr, 2024
我们讨论了机器学习驱动研究的可重复性问题,包括了障碍和驱动因素,旨在为决策制定提供有关采用不同解决方案支持机器学习可重复性的见解和贡献。
Jun, 2024
通过挖掘 GitHub 上项目代码的变更历史记录,使用神经机器翻译技术进行修复漏洞的学习,设计并训练了一个 Encoder-Decoder 模型,可以在瞬间模仿各种不同的 AST 操作,并生成候选修复程序,可在实际环境中修复数以千计的独特故障方法,并预测出开发人员生成的固定补丁的 9-50%。
Dec, 2018