识别符合语法的自然语言问题

Aug, 2018

Identifying Well-formed Natural Language Questions

Manaal Faruqui, Dipanjan Das

TL;DR介绍了识别自然语言问题是否良好形式的任务并构建 / 发布了一个包含 25,100 个公共问题的数据集。对测试集的准确率为 70.7％。并展示了分类器可用于提高基于神经网络的序列到序列模型生成阅读理解问题的性能。

Abstract

Understanding search queries is a hard problem as it involves dealing with "word salad" text ubiquitously issued by users. However, if a query resembles a well-formed question, a natural language processing pipel

search queries natural language processing dataset classification neural models

发现论文，激发创造

基于机器学习方法的句子结构分析自动生成问题

本文介绍了我们使用传统语言学方法和多种机器学习技术生成英语非结构化文本问句的框架，并且加入了问题评估模块，最终证明我们的生成问题质量优于其他最好的系统，并且与人类创建的问题相当。

May, 2022

评价和改进知识图谱问答问题自然性的度量方法

通过创建 IQN-KGQA 测试集，从五个角度对自然度的问题进行了评估并对其进行了改写，以改进自然语言处理中 KGQA 模型的性能并解决构建大规模 KGQA 数据集的挑战。

May, 2022

一种语法感知的 BERT 用于在课程框架中识别格式良好的查询

本文使用基于 Transformer 的语言模型 BERT 和词性信息，结合 Baby Steps 和 One Pass 技术进行多层面的 Curriculum Learning，用于识别合乎要求的查询，并取得了近乎人类上限的 83.93% 的准确率，优于之前的 75.0%。

Aug, 2022

在社区问答网站中识别不清晰的问题

本研究提出了一种问题清晰度分类方法，该方法通过类似问题进行分类，以此作为基础为问题制定支持用户界面的开发提供可行的替代方案，并对其进行了与文本分类基线的比较。

Jan, 2019

无需问题示例的开放领域澄清问题生成

通过提出一个视觉基础的问题 - 回答模型框架，使用期望的信息量增益优化来产生极性澄清问题以消除人机对话中的误解，从而展示了该模型在目标导向的 20 个问题游戏中与人工回答者一起提出的问题如何提高交流成功率。

Oct, 2021

使用统计自然语言处理技术为查询建议相关问题

本研究提出一个自我学习的组合方法，通过引入具有权重的句法和语义相似度指标来确定来自预定数据库的类似问题，通过全面分析证明其效率和功效高于现有文献。

Apr, 2022

自动问答系统的比较性实验研究及其对抗词语混淆的鲁棒性

使用自然语言处理模型进行问答生成在我们周围是非常普遍的。它在许多用例中被使用，例如构建聊天机器人，在谷歌搜索中提供提示以及作为银行移动应用程序中的信息导航方式等。我们的研究主要调查通过人类生成的数据对模型性能的影响。

Nov, 2023

评估问答系统：评判自然语言的复杂性

本文针对问答系统的发展历程、评估指标及其相应的理论框架进行综述，并探讨了相关的评估方法和数据集。

Sep, 2022

如何更好地提问？用于重写不合规问题的大规模多领域数据集

本文提出一个多领域问题重写的大规模数据集，并基于该数据集训练序列到序列的神经网络模型，相较于其他数据资源的基线方法，其 BLEU-4 指标提高了 13.2％，并提供了该数据集以鼓励相关研究。

Nov, 2019

利用生成 NQ 类问题来改进问答

本研究提出一种算法，利用数据集转换技术从长的 Trivia 问题转化为类似于日常人类交流的较短问题的方式，自动生成自然问题（NQ）数据集中的问题，同时使用神经分类器检测并去除不合法的问题，从而生成高质量的数据集，提高了 QA 表现，该算法在低资源环境下使用，扩展了 QA 系统的规模，同时保持了训练数据的质量。

Oct, 2022