开源软件问题讨论中信息类型的分析与检测

Feb, 2019

开源软件问题讨论中信息类型的分析与检测

Analysis and Detection of Information Types of Open Source Software Issue Discussions

Deeksha Arya, Wenting Wang, Jin L.C. Guo, Jinghui Cheng

TL;DR通过对 GitHub 上三个项目中 15 个复杂问题讨论主题的定性内容分析，我们发现了 16 种信息类型，并创建了一个包含 4656 个句子的标记语料库。通过监督式自动分类技术，我们发现当给定问题的相关先验知识时，随机森林能够有效地使用会话特征 (如句子长度和位置) 检测大多数句子类型。当分类来自新问题的句子时，逻辑回归可以使用文本特征对某些信息类型获得令人满意的性能，但对其他信息类型则表现不足。

Abstract

Most modern issue tracking systems (ITSs) for open source software (OSS) projects allow users to add comments to issues. Over time, these comments accumulate into →

issue tracking systems open source software discussion threads content analysis automated classification

发现论文，激发创造

开放源代码项目问题跟踪系统中的任务驱动技能识别支持

通过自动标记问题策略来帮助开源软件贡献者选择要贡献的任务，使用社交网络分析度量从问题讨论中提取新的预测量，预测 API 域标签并使用技能本体论来协助贡献者寻找合适的任务。该研究表明，标记问题并组织它们是开源软件社区中各种角色的重要策略，API-domain 标签对于经验丰富的从业者是相关的，预测具有平均精度为 75.5％。

Nov, 2022

开源机器学习项目中实际缺陷的比较分析 -- 一篇注册报告

研究了机器学习系统和传统软件系统之间的问题报告需求和解决过程的差异，并通过 GitHub 上的应用机器学习项目中的真实问题报告，探究了机器学习问题和非机器学习问题的解决时间和代码修改量等方面的差异。

Sep, 2022

软件元数据的生成型人工智能：FIRE 2023 软件工程信息检索赛道综述

在软件工程中的信息检索（IRSE）领域，通过基于人类和大型语言模型生成的标签的机器学习框架，开发代码注释自动评估的解决方案。通过对开源 Github 上的 C 语言项目提取的 9048 个代码注释和周围代码片段对进行二分类任务，将注释分类为有用和无用。来自各大学和软件公司的 17 支队伍总共提交了 56 个实验。通过 F1 - 得分定量评估实验结果，并根据开发的特征类型、使用的监督学习模型及其对应的超参数进行定性评估。大型语言模型生成的标签增加了预测模型的偏差，但能得到更少过拟合的结果。

Oct, 2023

CatIss：使用 Transformer 对问题报告进行智能分类的工具

本论文介绍了 CatIss，一种基于 Transformer 的预训练 RoBERTa 模型的自动 ISSue 报告分类器。该模型成功在 NLBSE 工具竞赛提供的数据集中进行了微调，经评估其在约 8 万个 GitHub issue 报告上表现良好，取得了 87.2％的 F1 分数。此外，CatIss 是一种通用的预测模型，可应用于任何未见过的软件项目或历史数据很少的项目。

Mar, 2022

基于多文本信息和报告意图的 Bug 报告自动分类

本研究提出了一种新的自动分类缺陷报告的方法，采用自然语言处理技术对文本信息进行预处理，并综合考虑缺陷报告的意图，包括 Apache、Eclipse、Gentoo、Mozilla 等四个生态系统，使用 BERT 和 TF-IDF 技术提取特征，训练分类器后实验结果表明，我们的方法的 F-Measure 从 87.3% 提高到了 95.5%。

Aug, 2022

超越重复：探索和预测问题追踪系统中的链接类型

研究了 JIRA 中连接问题的各种类型链接，将其分为五类，并发现了不同类型链接的特点和趋势，最后运用现有的深度学习方法，发现这种方法在识别重复链接时存在问题，并提出了解决方法。

Apr, 2022

开源软件开发者的代码推荐

本文提出了一种新的代码推荐框架 CODER，通过建立异构图并对文件结构进行聚合，实现了微观用户－代码交互和宏观用户 - 项目交互的联合建模，进而预测开源软件开发者的未来贡献行为。该框架在多种实验设置下（包括项目内、跨项目和冷启动推荐）都取得了优异的性能表现，作者还构建了三个大规模的数据集，以促进未来的研究方向。

Oct, 2022

基于开发者讨论的学习式缺陷报告解决方案描述

为加速缺陷解决，通过综合讨论中的相关内容，包括自然语言和源代码，生成简明的自然语言解决方案描述来解决实际的软件缺陷.

Oct, 2021

软件问题的自动分配和分类

本论文提出了一种分类方法，使用一系列经过精心筛选的语言特征来识别错误的类型，并将错误分配给设计师、开发人员、测试人员和领导者这四个角色中的一个，表明了其更一般的解决方案。与深层语言模型相比，我们使用浅层机器学习模型和集成方法，并展示其在精度上的可比性。

Jun, 2023

基于转移学习的 GitHub 问题评论对话行为分类方法

本文提出一种基于转移学习的对 GitHub 评论的对话行为分类方法，该方法能更好地理解虚拟团队在社交编码平台上的协作过程，采用多种编码模型进行比较，并探讨其在 GitHub 任务评论分类上的应用。

Nov, 2020