Aug, 2023

LLM 对逻辑谬误的容易受到性如何?

TL;DR研究探索了大型语言模型 (LLMs) 在多轮辩论中的理性思考能力,通过研究谬误论证对其逻辑推理表现的影响。使用 Logic Competence Measurement Benchmark (LOGICOM) 来评估 LLMs 对逻辑谬误的鲁棒性,发现 GPT-3.5 和 GPT-4 在通过推理改变观点方面有潜力,但在面对逻辑谬误时,比起使用逻辑推理,GPT-3.5 和 GPT-4 更容易错误地被说服。提供了包含逻辑和谬误论证对的数据集。