Jul, 2022

CodeRL: 通过预训练模型和深度强化学习掌握代码生成

TL;DRCodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限,同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。