Feb, 2019

开源软件问题讨论中信息类型的分析与检测

TL;DR通过对 GitHub 上三个项目中 15 个复杂问题讨论主题的定性内容分析,我们发现了 16 种信息类型,并创建了一个包含 4656 个句子的标记语料库。通过监督式自动分类技术,我们发现当给定问题的相关先验知识时,随机森林能够有效地使用会话特征 (如句子长度和位置) 检测大多数句子类型。当分类来自新问题的句子时,逻辑回归可以使用文本特征对某些信息类型获得令人满意的性能,但对其他信息类型则表现不足。