Dec, 2022

ReCode: 代码生成模型的健壮性评估

TL;DR本文提出一种针对代码生成模型综合鲁棒性评估的基准测试 ReCode,并定制了超过 30 种变形以评估模型的鲁棒性性能,同时提出了针对每种扰动类型的鲁棒性度量,重点观察了在 SOTA 模型上的表现,发现 CodeGen 比 InCoder 和 GPT-J 更具鲁棒性,模型对语法扰动最敏感,同时表明 MBPP 上的鲁棒性评估更具挑战。