Jul, 2022
CodeRL: 通过预训练模型和深度强化学习掌握代码生成
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning
Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi
TL;DRCodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限,同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。