使用 Quora 问题对数据集进行自然语言理解

Jul, 2019

使用 Quora 问题对数据集进行自然语言理解

Natural Language Understanding with the Quora Question Pairs Dataset

Lakshay Sharma, Laura Graesser, Nikita Nangia, Utku Evci

TL;DR本文研究自然语言理解（NLU）任务，通过研究 Quora 数据集中的重复问题检测，进行了数据集的广泛探索，采用了多种机器学习模型，包括线性和基于树的模型。我们最终发现，一个简单的连续词袋神经网络模型具有最佳性能，优于更复杂的循环和注意力模型。我们还进行了误差分析，并发现数据集标签中存在一定的主观性。

Abstract

This paper explores the task natural language understanding (NLU) by looking at duplicate question detection in the quora dataset. We cond

natural language understanding duplicate question detection quora dataset machine learning models continuous bag of words neural network

发现论文，激发创造

使用语言模型：将自然语言理解视为问答

该研究针对自然语言理解问题，通过将其映射到问题回答领域，研究了特定的迁移学习方法，并显示出在低数据环境下，与其他方法相比可以带来显著的改进，特别是通过跨不同领域的 NLU 问题进行顺序转移学习可增加其收益，并可将所需数据减少高达 10 倍。

Nov, 2020

基于 SQuAD 的神经问答模型比较分析

本文通过定量和定性分析现有端到端神经模型在斯坦福问答数据集上的结果，旨在理解和比较其特性，以迈向实现在多个领域中的泛化能力。研究发现，预测错误反映了某些模型特定偏差，本文对此进行了进一步讨论。

Jun, 2018

将问答数据集转化为自然语言推断数据集

本研究提出了一种基于句子转换模型的新方法，从庞大数量的大型问答数据集中自动派生自然语言推理（NLI）数据集，并展示了其将多种问答数据集成功应用于自然语言推理数据集的能力，从而新派生出包含 50 万个以上 NLI 示例的免费数据集 (QA-NLI)，展示了它呈现的推理现象的宽泛性。

Sep, 2018

基于规则的开放域问答系统在 SQuAD v2.0 数据集上的设计与开发

本研究提出了一种基于规则的开放域问答系统，可以回答来自相关上下文的任何领域的问题，使用 1000 个问题的 SQuAD 2.0 数据集测试开发的系统表现满意，同时分析了性能。

Mar, 2022

使用随机森林的连体神经网络检测重复问题对

使用门控循环单元 (GRU) 与其他高度使用的机器学习算法 (如随机森林、Adaboost 和 SVM) 结合，对 Quora 发布的一个包含约 400k 对标记问题的数据集进行相似性预测任务，其中最好的结果是使用双向 GRU 的 Siamese 修改，并用随机森林分类器，这让我们在 Kaggle 上的 Quora 问题对比赛中进入了前 24％。

Jan, 2018

QUADRo: 问题 - 答案数据库检索的数据集和模型

本文提出了一种基于神经信息检索和重新排名的自动问答系统，利用包含 6.3M 问题和回答对的数据库，实现了开放域问答并超越了传统的非结构化文本或图形搜索方法，并证明了基于 Transformer 模型的 (q,a) 对比仅考虑问题表示更优，该方法具有和在 BING 搜索引擎上构建的 QA 系统竞争的优点。

Mar, 2023

无标签训练数据的神经重复问题检测

本研究提出了两种方法：自动生成重复问题和使用问题标题和正文进行弱监督，研究表明这两种方法可以有效地训练社区问答中的问题检测模型，尤其是可以利用来自 cQA 论坛的大量未标记数据。同时，我们还发现使用标题和正文信息进行弱监督的方法是训练 cQA 答案选择模型的有效方法。

Nov, 2019

电子学习平台中的无监督问题重复和相关问题检测

该研究提出了一种名为 QDup 的工具，它可以无需受监督的数据，利用统计和神经方法结合的无监督流程，从一个大型题目库中获取近似重复和语义相关的问题，并且在高准确率和速度下为学习者提供相关练习题。

Dec, 2022

现代问答数据集和基准：一项调查

本文调查了在深度学习时代发布的有影响力的问答数据集，并介绍了文本问答和视觉问答两个最常见的问答任务，涵盖了最具代表性的数据集，并提出了当前的一些 QA 研究挑战。

Jun, 2022

用于复述识别、语义文本相似性、自然语言推理和问答的神经网络模型

本文分析了几种神经网络设计（及其变体），对八个数据集进行了广泛的比较，包括释义识别、语义文本相似性、自然语言推断和问题回答等任务。我们提供了一个系统的研究，表明编码上下文信息的 LSTM 和句间交互至关重要，而 Tree-LSTM 并不能像先前宣传的那样有所帮助，但却出人意料地提高了 Twitter 数据集的性能；增强顺序推理模型是迄今为止较大数据集的最佳选择，而基于词对交互的模型在较少数据可用时实现最佳性能。我们将我们的实现作为开源工具包发布。

Jun, 2018