Stack Overflow 上的问题相关性：任务、数据集和基于语料库的模型

May, 2019

Stack Overflow 上的问题相关性：任务、数据集和基于语料库的模型

Question Relatedness on Stack Overflow: The Task, Dataset, and Corpus-inspired Models

Amirreza Shirani, Bowen Xu, David Lo, Thamar Solorio, Amin Alipour

TL;DR本文研究基于领域的社区问答，以 Stack Overflow 为例，将问题相关性任务作为一个四个互斥类别的多类分类问题进行建模，提供了一个具有超过 30 万对的领域特定数据集，采用神经网络架构和传统模型计算它们之间的相关性。

Abstract

domain-specific community question answering is becoming an integral part of professions. Finding related questions and answers in these communities can significantly improve the effectiveness and efficiency of information seeking. →

domain-specific community question answering stack overflow multi-class classification dataset neural network models

发现论文，激发创造

用神经网络预测 StackOverflow 上的问题质量

本文评估了神经网络模型以预测 Stack Overflow 上问题的质量，结果表明与基准机器学习模型相比，神经网络模型具有更高的准确性，并且发现神经网络模型的层数对其性能有显著影响。

Apr, 2024

ReviewQA：一个基于关系和方面的意见阅读数据集

本文介绍了一种基于酒店评论的问题回答数据集 ReviewQA，旨在评估模型的关联理解和能力，并提供了几种基线模型的实现。

Oct, 2018

社区问答中的答案排序：一种深度学习方法

本研究对社区问答的答案排名进行了深入的研究，基于大规模的 Stack Overflow 问题和回答数据，利用深度学习方法 (密集嵌入和 LSTM 网络) 进行预测和排序，提高了问答的准确度，但由于源码中大量的 oov 词汇，深度学习模型的性能提升由限制，未来应开发新的方法以解决该问题。

Oct, 2022

利用用户信息在问答网站中预测最佳答案

本研究使用问题者的背景信息及其他特征，例如文本内容或者与其他参与者的关系，并利用 Stack Exchange 数据集进行训练，提出一种预测最佳答案的新方法，并且证明了用户间的关系对结果具有重要影响。同时，我们发现用户关系信息与文本特征和元特征（如时间差异）之间有较少的重叠。

Dec, 2022

StackOverflow 与 Kaggle 之争：关于数据科学的开发者讨论研究

本研究使用潜在狄利克雷分配主题建模来提取 24 个数据科学讨论主题，并从 StackOverflow 和 Kaggle 的 197836 篇文章中研究了它们的特征，发现 TensorFlow 相关主题在 StackOverflow 上最为普遍，而元讨论主题在 Kaggle 上最为普遍；此外，数据科学讨论在两个社群中呈现出快速增长的趋势，而 Keras 的兴趣在上升，深度学习、集成算法在 Kaggle 上受到关注，但在 StackOverflow 上不常讨论。这些发现有助于研究人员更有效地针对不同的开发者社群研究和传达数据科学概念。

Jun, 2020

AmazonQA：一项基于评论的问答任务

该研究提出了基于评论的问答系统，并介绍了一个新的数据集和结合信息检索和阅读理解模型的方法以生成答案。研究评估了许多答案生成模型并提出了强有力的基线，证明了这个新任务的挑战性。

Aug, 2019

应用迁移学习提升特定领域搜索体验：使用查询和问题的相似度

本研究提出一种针对任何特定领域搜索引擎的框架来计算给定输入查询和一组预定义问题之间的相似度，使用 Siamese 网络和 LSTM 模型训练分类器来生成未归一化和归一化的相似度分数，并结合两种词向量和自定义模糊匹配分数等三种其他相似度得分计算的元分类器，在 Quora 问题对（QQP）数据集以及特定于金融领域的数据集上进行性能测试。

Jan, 2021

QUADRo: 问题 - 答案数据库检索的数据集和模型

本文提出了一种基于神经信息检索和重新排名的自动问答系统，利用包含 6.3M 问题和回答对的数据库，实现了开放域问答并超越了传统的非结构化文本或图形搜索方法，并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优，该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。

Mar, 2023

StaQC: 从 Stack Overflow 系统挖掘的问题 - 代码数据集

本文提出了一种新的从 Stack Overflow 上系统挖掘问题 - 代码对的方法，并利用双视图层次神经网络模型进行预测，成功地创建出目前最大的 Python 和 SQL 领域的问题 - 代码对数据集 StaQC，可以有效地帮助自然语言处理模型与编程语言的关联。

Mar, 2018

现代问答数据集和基准：一项调查

本文调查了在深度学习时代发布的有影响力的问答数据集，并介绍了文本问答和视觉问答两个最常见的问答任务，涵盖了最具代表性的数据集，并提出了当前的一些 QA 研究挑战。

Jun, 2022