GitRank: 一个排名 GitHub 存储库的框架
本文研究机器编程中代码库质量对性能的影响,提出了一个排名框架 GitRank,并将其应用于评估候选 MP 系统使用的质量措施和 GitRank 使用的质量措施之间的相关性。初步结果表明 GitRank 衡量的质量措施可适用于 ControlFlag,但同时也引发了有关 MP 系统使用的代码库质量措施的问题。
Sep, 2022
本文研究 GitHub 上软件系统的受欢迎程度及影响其受欢迎程度的因素,发现编程语言和应用领域是影响因素之一,同时,基于对 2,279 个受欢迎 GitHub 存储库的时间序列进行聚类,总结出 4 种主要的受欢迎度增长模式。研究成果可帮助开发者和维护者将软件系统建设和发展于竞争激烈的软件市场中。
Jun, 2016
通过评估源代码的可重现性来支持论文的可重现性评价,并提出了一个基于节相似性的系统,相较于层次转换模型,该系统在解释性方面具有优势。
Oct, 2023
本研究分析了 GitHub 平台上的开放数据格局及用户分享数据集的模式,并披露了 GitHub 是世界上最大的开放数据主机之一,研究还公开发布了三个数据集以支持分析。该平台的数据资源对于加速 AI 研究尤为重要。
Jun, 2023
本文通过在 Github 和 Gerrit 代码仓库中挖掘数据进行大规模实验比较两种主要的代码审查员推荐算法 (RevFinder 和基于朴素贝叶斯的方法) 的性能,以确定最佳的代码审查员。我们发现:1)没有一个模型适用于所有项目;2)不同的代码仓库会对推荐结果产生影响;3)利用 Gerrit 中可用的子项目信息可以改善推荐结果。
Jun, 2018
通过数据驱动的方法和机器学习模型,本文研究了 GitHub 项目的维护活动水平,揭示了 16% 的项目在一年内未得到维护,并指出 Objective-C 项目具有较低的维护活动水平,软件工具则是维护活动最高的项目类型。这项研究为开发者选择开源项目提供了帮助。
Mar, 2020
本篇研究提出了 HiGitClass 架构,它是一个关键词驱动的层次分类框架,可以从结构化和非结构化的数据中自动对 GitHub 代码库进行分类,尤其在集成结构化和非结构化数据方面表现出色,解决了基于主题搜索的需求,对提供少量人力资源的信息管理系统非常有用。
Oct, 2019
本文提出一种基于深度强化学习的框架 OSS Mentor,通过使用经验知识进行训练,它可以适应性地帮助开发人员提高其贡献,这是一种管理开源软件的新方法,实验结果表明该方法显著超越现有实验结果,并设计了一个更加稳健的框架以改善开发人员的贡献。
Oct, 2022
本文介绍了一种名为 paper2repo 的创新性基于 GCN 的跨平台推荐系统,利用自动标记和机器学习方法在 GitHub 和 Microsoft Academic 上匹配相似的论文和 repo,并取得了比其他现有推荐方法更好的性能。
Apr, 2020
本文提出了一种新的代码推荐框架 CODER,通过建立异构图并对文件结构进行聚合,实现了微观用户-代码交互和宏观用户 - 项目交互的联合建模,进而预测开源软件开发者的未来贡献行为。该框架在多种实验设置下(包括项目内、跨项目和冷启动推荐)都取得了优异的性能表现,作者还构建了三个大规模的数据集,以促进未来的研究方向。
Oct, 2022