Feb, 2024

与更具说服力的 LLMs 辩论会导致更真实的回答

TL;DR大型语言模型的对齐方法主要依赖于人工标注数据,但随着模型的不断发展,人类专业知识将不再足够,将由非专家来监督专家。我们研究了一个类似情景,强大模型(专家)拥有回答问题所需的信息,而弱小模型(非专家)缺乏这些信息。我们发现辩论方法对非专家模型和人类都有帮助,相应的准确率分别为 76% 和 88%(与朴素基准分别为 48% 和 60%)。此外,以无监督方式优化专业辩手的说服力可以提高非专家模型在辩论中识别真相的能力。我们的研究结果为在没有绝对真实性的情况下,通过辩论来对齐模型提供了有益的实证证据。