Jul, 2019

使用 Quora 问题对数据集进行自然语言理解

TL;DR本文研究自然语言理解(NLU)任务,通过研究 Quora 数据集中的重复问题检测,进行了数据集的广泛探索,采用了多种机器学习模型,包括线性和基于树的模型。我们最终发现,一个简单的连续词袋神经网络模型具有最佳性能,优于更复杂的循环和注意力模型。我们还进行了误差分析,并发现数据集标签中存在一定的主观性。