Feb, 2024

基于垄断对话社会场景模拟的大型语言模型自对齐

TL;DR通过社会情境模拟,本研究提出一种新的大语言模型(LLM)自我对齐方法(MATRIX),使 LLM 在回答问题之前考虑社会后果,并通过 MATRIX-simulated 数据对 LLM 进行微调,保证了对人类价值观的遵循和推理速度。实验证明,该方法在 4 个基准测试中优于 10 多个基线,通过 875 位用户评价表明,我们的调整后的 13B 规模 LLM 在与人类价值观的对齐方面超越了 GPT-4。