Stack Overflow 上的问题相关性:任务、数据集和基于语料库的模型
本文评估了神经网络模型以预测 Stack Overflow 上问题的质量,结果表明与基准机器学习模型相比,神经网络模型具有更高的准确性,并且发现神经网络模型的层数对其性能有显著影响。
Apr, 2024
本研究对社区问答的答案排名进行了深入的研究,基于大规模的 Stack Overflow 问题和回答数据,利用深度学习方法 (密集嵌入和 LSTM 网络) 进行预测和排序,提高了问答的准确度,但由于源码中大量的 oov 词汇,深度学习模型的性能提升由限制,未来应开发新的方法以解决该问题。
Oct, 2022
本研究使用问题者的背景信息及其他特征,例如文本内容或者与其他参与者的关系,并利用 Stack Exchange 数据集进行训练,提出一种预测最佳答案的新方法,并且证明了用户间的关系对结果具有重要影响。同时,我们发现用户关系信息与文本特征和元特征(如时间差异)之间有较少的重叠。
Dec, 2022
本研究使用潜在狄利克雷分配主题建模来提取 24 个数据科学讨论主题,并从 StackOverflow 和 Kaggle 的 197836 篇文章中研究了它们的特征,发现 TensorFlow 相关主题在 StackOverflow 上最为普遍,而元讨论主题在 Kaggle 上最为普遍;此外,数据科学讨论在两个社群中呈现出快速增长的趋势,而 Keras 的兴趣在上升,深度学习、集成算法在 Kaggle 上受到关注,但在 StackOverflow 上不常讨论。这些发现有助于研究人员更有效地针对不同的开发者社群研究和传达数据科学概念。
Jun, 2020
该研究提出了基于评论的问答系统,并介绍了一个新的数据集和结合信息检索和阅读理解模型的方法以生成答案。研究评估了许多答案生成模型并提出了强有力的基线,证明了这个新任务的挑战性。
Aug, 2019
本研究提出一种针对任何特定领域搜索引擎的框架来计算给定输入查询和一组预定义问题之间的相似度,使用 Siamese 网络和 LSTM 模型训练分类器来生成未归一化和归一化的相似度分数,并结合两种词向量和自定义模糊匹配分数等三种其他相似度得分计算的元分类器,在 Quora 问题对(QQP)数据集以及特定于金融领域的数据集上进行性能测试。
Jan, 2021
本文提出了一种基于神经信息检索和重新排名的自动问答系统,利用包含 6.3M 问题和回答对的数据库,实现了开放域问答并超越了传统的非结构化文本或图形搜索方法,并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优,该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。
Mar, 2023
本文提出了一种新的从 Stack Overflow 上系统挖掘问题 - 代码对的方法,并利用双视图层次神经网络模型进行预测,成功地创建出目前最大的 Python 和 SQL 领域的问题 - 代码对数据集 StaQC,可以有效地帮助自然语言处理模型与编程语言的关联。
Mar, 2018
本文调查了在深度学习时代发布的有影响力的问答数据集,并介绍了文本问答和视觉问答两个最常见的问答任务,涵盖了最具代表性的数据集,并提出了当前的一些 QA 研究挑战。
Jun, 2022