Jul, 2024

超越指令跟随:评估大型语言模型的规则跟随能力

TL;DR本文通过澄清规则遵循概念,并创建全方位评估规则遵循能力的综合基准RuleBench,对多样化的大型语言模型进行了实验。结果表明,目前大型语言模型在规则遵循方面仍存在限制,并提供了对大型语言模型在成为更好的规则遵循智能代理方面的改进见解。