Oct, 2022

用因果框架量化语言模型数学推理的鲁棒性

TL;DR通过行为测试,研究语言模型在数学问题求解中的鲁棒性和灵敏度,并通过因果图描述直接干预输入空间对模型行为的影响。在双变量数学问题测试中,LLM、GPT-3-Instruct(175B)相对于其他 GPT 变体,在鲁棒性和灵敏度方面实现了显著提高。