question answering (QA) systems are among the most important and rapidly
developing research topics in natural language processing (NLP). A reason,
therefore, is that a QA system allows humans to interact more na
本研究针对认知智能领域中的 Open Question Answering 任务进行评估,提出了 QA Evaluation 任务和相应的数据集,在考虑到自动评估方法的局限性的基础上,采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数,并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷,最终生成的数据集有望促进更有效的自动评估工具的发展。