HANS，你聪明吗？神经系统的聪明汉斯效应分析

Sep, 2023

HANS，你聪明吗？神经系统的聪明汉斯效应分析

HANS, are you clever? Clever Hans Effect Analysis of Neural Systems

Leonardo Ranaldi, Fabio Massimo Zanzotto

TL;DR我们通过使用四个多选题基准来调查 It-LLMs 对多个探测测试的韧性能力。引入对抗性示例，我们展示了在选择顺序变化时出现的显著性能差距，揭示了选择偏差并讨论了推理能力。通过使用连续思维（CoT）技术，我们引发模型进行推理并减轻偏见，从而获得更强大的模型。

Abstract

instruction-tuned large language models (It-LLMs) have been exhibiting outstanding abilities to reason around cognitive states, intentions, and reactions of all people involved, letting humans guide and comprehend day-to-day social interactions effectively. In fact, several multiple-ch

instruction-tuned large language models resilience abilities multiple-choice questions order bias chain-of-thought technique

发现论文，激发创造

Clever Hans 或神经心理理论？在大型语言模型中进行社交推理的应力测试

我们通过在 6 个任务上进行广泛的评估，发现虽然 LLM 表现出某些神经理论社交认知能力，但这种行为远非稳健。我们进一步研究影响 N-ToM 任务表现的因素，并发现 LLM 难以应对对抗性例子，这表明它们依赖于浅层启发式算法，而非稳健的 ToM 能力。我们警告不要从个别例子、有限的基准测试和使用人设计的心理测试来评估模型。

May, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

LLMs 的高风险决策中的认知偏差

我们介绍了 BiasBuster，这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集，我们测试了各种减轻偏见的策略，并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见，而无需为每种偏见类型手动制作示例。

Feb, 2024

LLM 认知能力的高效测量：自适应测试视角

提出了一种采用自适应测试框架评估大型语言模型的方法，该方法可以根据模型的表现动态调整测试问题的难度，从而更准确地估计模型的能力，使得大型语言模型可以与人类进行比较，同时该方法可以使用更少的问题，从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断，并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异，可以达到中等水平学生的认知能力水平。

Jun, 2023

大型语言模型对多项选择题选项顺序的敏感性

在这篇论文中，我们研究了大型语言模型在多项选择题中的鲁棒性，发现其对选项顺序敏感，并存在位置偏差的问题。通过详细的分析和实验证明，通过调整选项的位置策略可以缓解或者放大模型的偏见，并提出了校准预测的两种方法，成功提高了不同模型和评估指标的性能。

Aug, 2023

您的大型语言模型是否有知识，还是只是选择题作弊者？

通过从现有的 MCQA 数据集中提取对比集，我们测试了 12 个大型语言模型，发现这些模型在给予问题和选项时并不依赖仅有的选择快捷方式，因此我们认为，尽管 MCQA 容易受到高选择准确性的影响，但 LLMs 并不仅仅靠利用选择快捷方式来获得 MCQA 排行榜上的高排名。

Jul, 2024

应对医疗语言模型中的认知偏差

这项研究开发了 BiasMedQA 作为一种新的基准测试方法，评估大型语言模型在医学任务中受认知偏差影响的程度，并发现 GPT-4 对偏差具有较强的韧性，而 Llama 2 70B-chat 和 PMC Llama 13B 则受偏差影响较大，这凸显了在医学语言模型开发中需致力于偏差缓解，以实现在医疗保健领域更安全、可靠的应用。

Feb, 2024

语言模型中出现的类人直觉行为和推理偏见 —— 以及 GPT-4 中的消失

本研究通过使用心理学方法，展示了大型语言模型（LLMs），尤其是 GPT-3，表现出类似于人类直觉的行为和认知错误，而具有更高认知能力的 LLMs，特别是 ChatGPT 和 GPT-4，学会避免这些错误，并表现出超理性的方式；此外，我们还探究了直觉决策倾向的稳定程度。

Jun, 2023

语言模型在问题解决中表现出与人类学习者相同的认知偏差吗？

运用大型语言模型（LLMs）作为认知模型的兴趣日益增加，本研究通过研究 LLMs 在解决算术问题时与儿童的认知偏差，得出结论：LLMs 在文本理解和解决方案规划步骤中表现出类似人类的偏差，但在解决方案执行过程中没有类似的偏差。

Jan, 2024

大型语言模型是否表现出认知失调？研究揭示观点和陈述答案之间的差异

我们通过转化问题、多选题和直接文本补全的实验评估，研究了大型语言模型（LLMs）在因果推理、不确定性方面能力的量化，结果显示 LLMs 的表态答案与预测真实信念存在显著差异，提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性，对于 LLMs 能力的评估方法仅提供了部分信息，需要进一步研究其能力的广度和本质。

Jun, 2024