Dec, 2023

跨越人类数据:以语言模型扩展自我训练的问题解决能力

TL;DR本论文探讨了基于期望最大化的简单自我训练方法ReST$^{EM}$,在数学问题和编码基准测试中使用PaLM-2模型,细调模型,获得了在模型尺寸上的有利规模效应,并且明显超过仅使用人工数据的细调方法,总体而言,研究结果表明利用反馈进行自我训练可以大大减少对人工生成数据的依赖。