Dec, 2022

基于执行的评估方法来评估开放域代码生成

TL;DR提出ODEX——自然语言处理与代码生成数据集,包含945组自然语言代码对、1707个测试集,并支持四种语言,从StackOverflow论坛的实践操作中获得,旨在促进开放性问题的研究。ODEX支持执行评估,强大的模型有改进空间。