当 LLM 遇到狡猾问题：一个针对大型语言模型的谬论理解基准测试

Feb, 2024

当 LLM 遇到狡猾问题：一个针对大型语言模型的谬论理解基准测试

When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models

Yinghui Li, Qingyu Zhou, Yuanzhen Luo, Shirong Ma, Yangning Li...

TL;DR我们在这篇论文中通过提出一个包含狡猾问题的 FaLlacy Understanding Benchmark (FLUB) 来挑战大型语言模型的推理和理解能力，该 Benchmark 包含了从真实互联网环境中收集的棘手、幽默和误导性问题，我们设计了三个难度递增的任务，用于评估 LLM 的谬误理解能力。基于 FLUB，我们研究了多个代表性和先进的 LLM 的性能，反映出 FLUB 具有挑战性且值得进行更多的未来研究。通过我们的广泛实验证明和详细分析，我们获得了有趣的发现和有价值的见解。我们希望我们的 Benchmark 能够鼓励社区改进 LLM 的理解谬误的能力。

Abstract

Recently, large language models (LLMs) have made remarkable evolutions in language understanding and generation. Following this, various benchmarks for measuring all kinds of capabilities of LLMs have sprung up. In this paper, we challenge the →

large language models fallacy understanding benchmark reasoning and understanding abilities cunning questions fallacy understanding ability

发现论文，激发创造

由谬误而推理：通过逻辑谬误理解增强大型语言模型的逻辑推理

大型语言模型 (LLMs) 在很多推理任务中表现出良好的性能，但在某些复杂推理任务，特别是逻辑推理方面仍然存在困难。为了评估 LLMs 的逻辑谬误理解能力 (LFU)，我们在本文中从 WHAT、WHY 和 HOW 三个认知维度中提出了五个具体任务。为了解决这些 LFU 任务，我们成功构建了一个新的基于 GPT-4 的数据集 LFUD，只需少量人工参与。我们的广泛实验证明，我们的 LFUD 不仅可以用于评估 LLMs 的 LFU 能力，还可以通过微调 LLMs 在逻辑推理方面获得显著的性能提升。

Apr, 2024

LLMs 错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024

UBENCH：使用多项选择题对大型语言模型中的不确定性进行基准测试

针对大型语言模型（LLMs）的可解释性低，现有的评估系统主要考察问题解决能力而忽视了响应的不确定性，为此提出了 UBENCH，一个全面评估 LLM 可靠性的基准，包括了 3,978 个多项选择题，实验结果表明 UBENCH 取得了最先进的性能，同时与需要多次采样的基准方法相比，其单次采样方法显著节省了计算资源。此外，基于 UBENCH，我们评估了 15 个热门的 LLM 的可靠性，发现 GLM4 和 GPT-4 表现突出。我们还探讨了 Chain-of-Thought 提示、角色扮演提示、选项顺序和温度对 LLM 可靠性的影响，并分析了对不同 LLM 的不同效果。

Jun, 2024

MedFuzz: 大型语言模型在医学问答中的鲁棒性探索

使用对抗性方法 MedFuzz 对医学问题回答基准中的模型进行干扰，通过修改问题来迷惑大型语言模型 (Large Language Models, LLM)，检验其在违反基准假设时的性能泛化情况，并通过置换检验技术确保成功攻击的统计显著性。这些方法在更加真实的环境中为 LLM 的稳健运行提供了有希望的见解。

Jun, 2024

LLM 对逻辑谬误的容易受到性如何？

研究探索了大型语言模型 (LLMs) 在多轮辩论中的理性思考能力，通过研究谬误论证对其逻辑推理表现的影响。使用 Logic Competence Measurement Benchmark (LOGICOM) 来评估 LLMs 对逻辑谬误的鲁棒性，发现 GPT-3.5 和 GPT-4 在通过推理改变观点方面有潜力，但在面对逻辑谬误时，比起使用逻辑推理，GPT-3.5 和 GPT-4 更容易错误地被说服。提供了包含逻辑和谬误论证对的数据集。

Aug, 2023

FELM: 大型语言模型真实性评估基准

评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域，目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题，我们介绍了一个名为 felm 的大型语言模型真实性评估基准，该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释，我们可以帮助定位具体的事实错误。然而，我们的实验证实，当前的语言模型在忠实地检测事实错误方面还远远不够满意。

Oct, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

LLMs 作为事实推理器：现有基准和未来展望的洞见

通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点，该数据集比以前的数据集更高效且高度可重复。然而，大多数 LL 模型在 SummEdits 上表现不佳，最好的 GPT-4 模型仍然比人类的表现差 8％，这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。

May, 2023

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

可解释性检查表在评估员 LLMs 中的盲点发现

通过引入有针对性的扰动来测试评估者 LLMs 的能力，研究发现当前评估者 LLMs 存在显著不足，并强调在实际应用中需谨慎使用。

Jun, 2024