Sep, 2024

你弱的LLM秘密地是一个强大的对齐教师

TL;DR本研究针对大型语言模型(LLM)在对齐方面的挑战,提出了一种利用弱LLM的创新方法。实验结果显示,弱LLM能够生成与全人类标注数据相媲美甚至优于的反馈,揭示了模型规模对反馈有效性影响的最小化,从而为可扩展和可持续的对齐策略提供了新视角。