Jan, 2024

自我对弈微调将弱语言模型转化为强语言模型

TL;DR通过自我对弈优化学习,无需专家对手,实现在大型语言模型中无需人工标注数据即可达到人类水平性能的研究