EMNLPSep, 2021

CodeQA: 一个面向源代码理解的问答数据集

TL;DR提出了 CodeQA,一个免费的自由格式问题回答数据集,旨在实现源代码理解:给定代码片段和问题,需要生成文本答案。包含 119,778 个 Java 问题 - 答案对和 70,085 个 Python 问题 - 答案对的 CodeQA 数据集。通过语法规则和语义分析将代码注释转换为问题 - 答案对。对数据集进行了系统分析,并展示了几个神经网络的实验结果。尽管关于问题回答和机器阅读理解的研究发展迅速,但很少有先前的工作关注代码问题回答。这个新数据集可以作为源代码理解研究的有用基准。