Jun, 2024

超越模型崩溃:通过合成数据实现规模扩展需要加强

TL;DR使用反馈增强合成数据可以防止模型崩溃,验证了常见的方法,如 RLHF。