Oct, 2024

超越准确性的弱到强泛化:安全性、毒性和法律推理的初步研究

TL;DR本研究针对大型语言模型(LLMs)对人类价值的对齐问题,强调现有方法在实际对齐任务下的不足。作者提出将弱到强的生成扩展至实际对齐任务,并通过实证研究表明这一现象在安全性、毒性和法律推理三项复杂任务中的广泛存在,旨在提高模型输出的质量和对齐性能。