大型语言模型是否表现出认知失调？研究揭示观点和陈述答案之间的差异

Jun, 2024

大型语言模型是否表现出认知失调？研究揭示观点和陈述答案之间的差异

Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers

HTML

PDF

Manuel Mondal, Ljiljana Dolamic, Gérôme Bovet, Philippe Cudré-Mauroux

TL;DR我们通过转化问题、多选题和直接文本补全的实验评估，研究了大型语言模型（LLMs）在因果推理、不确定性方面能力的量化，结果显示LLMs的表态答案与预测真实信念存在显著差异，提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性，对于LLMs能力的评估方法仅提供了部分信息，需要进一步研究其能力的广度和本质。

Abstract

prompting and multiple choices questions (MCQ) have become the preferred approach to assess the capabilities of large language models (LLMs), due to their ease of manipulation and evaluation. Such experimental ap

发现论文，激发创造

大型语言模型对多项选择题选项顺序的敏感性

在这篇论文中，我们研究了大型语言模型在多项选择题中的鲁棒性，发现其对选项顺序敏感，并存在位置偏差的问题。通过详细的分析和实验证明，通过调整选项的位置策略可以缓解或者放大模型的偏见，并提出了校准预测的两种方法，成功提高了不同模型和评估指标的性能。

Aug, 2023

评估大型语言模型的推理能力

大型语言模型（LLMs）的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种LLMs是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现，这些被测试的LLMs在传统形式上解决这些问题的能力有限。我们进行了后续实验，探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异，但总体性能并未提高。此外，我们还发现性能与展示格式和内容以出人意料的方式相互作用，与人类表现有所不同。总的来说，我们的结果表明LLMs具有独特的推理偏见，其只能部分预测人类的推理表现。

Sep, 2023

大型语言模型中的自信-能力差距：一项认知研究

研究通过对大型语言模型（LLMs）的认知能力和置信度动态的深入了解，揭示了模型中展现高置信度但回答错误的情况，类似于人类心理学中的邓宁-克鲁格效应，以及低置信度但回答正确的情况，展示了潜在的低估偏差，强调了对这些语言模型认知过程的深入研究的必要性，以进一步拓展其功能和应用领域。

Sep, 2023

大型语言模型：当前辩论的细腻需求和实用角度下的理解

当前大型语言模型（LLMs）在生成符合语法、流畅的文本方面无与伦比。这篇论文针对LLMs的能力进行了辩论，并通过批判性评估三个经常在批评中出现的观点来展示LLMs仍需更多细化。其次，文章从实证和理论的角度提出了对LLMs中“真正”的理解和意向性的实用观点，并讨论了在何种情况下将心理状态归因于LLMs对于这一日益重要的技术在社会中具有实用的哲学背景。

Oct, 2023

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

文物还是绑架: LLMs如何在没有问题的情况下回答多项选择题?

在这项研究中，我们探索了多选题答题（MCQA）作为评估大规模语言模型（LLMs）的方法，并发现LLMs在只给出选项的提示情况下选择正确答案的准确性较高，未来需要加强MCQA基准测试，并进一步研究LLMs的决策过程。

Feb, 2024

相信还是不相信你的LLM

我们在大型语言模型中探索不确定性量化，旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性，从中推论出一种信息论度量，可可靠地检测只有认识论不确定性较大的情况，从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉，在单答案和多答案响应中均适用。与许多标准的不确定性量化策略（例如，将响应的对数似然度阈值化）不同，无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外，我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大，这可能具有独立的研究价值。

Jun, 2024

大型语言模型在其概率或口头信心中的诚实性比较

本研究解决了大型语言模型（LLMs）在知识边界感知方面的不足，重点分析了模型在生成的概率与口头信心之间的差异和联系。通过比较，发现概率感知通常比口头感知更准确，但需要领域内的验证集以调整信心阈值，且二者在处理不常见问题时表现更佳。这一发现有助于提升模型在回答超出其知识范围问题时的可靠性。

Aug, 2024

当所有选项都是错误的：评估大型语言模型在错误选择题上的鲁棒性

本研究探讨了大型语言模型（LLMs）在零-shot条件下识别没有正确答案的选择题的能力，这对教育评估质量至关重要。研究结果显示，LLMs在处理无正确答案问题时表现显著低于有正确答案的问题，Llama-3.1-405B在识别无效答案方面表现突出，提示LLMs在教育应用中需更重视批判性思维能力，以避免错误评估。

Aug, 2024

大型语言模型中的从众效应

本研究探讨了大型语言模型（LLMs）中的从众效应，即个体倾向于与多数人的反应保持一致。研究表明，所有测试过的模型在不同知识领域都展现了不同程度的从众行为，尤其是在对自身预测不确定时更易从众。我们提出了两种干预措施，以降低从众效应，推动构建更强大的语言模型。

Oct, 2024