您确定吗？在 FlipFlop 实验中挑战 LLMs 导致性能下降

Nov, 2023

您确定吗？在 FlipFlop 实验中挑战 LLMs 导致性能下降

Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment

Philippe Laban, Lidiya Murakhovs'ka, Caiming Xiong, Chien-Sheng Wu

TL;DR通过 FlipFlop 实验，该研究探讨了大型语言模型的多轮互动行为，发现模型在回答问题时会反思并改进答案，提供了分析模型行为和评估潜在解决方案的可靠框架。

Abstract

The interactive nature of large language models (LLMs) theoretically allows models to refine and improve their answers, yet systematic analysis of the multi-turn behavior of LLMs remains limited. In this paper, w

large language models flipflop experiment classification tasks multi-turn behavior sycophantic behavior

发现论文，激发创造

再问一次，然后失败：大型语言模型在判断中的摇摆

利用教育中的质问策略，我们提出了一种 “跟进质问机制” 以及两个评估指标，用于评估大型语言模型在面对质疑时的判断一致性，并对 ChatGPT、PaLM2-Bison 和 Vicuna-13B 进行了评估。实证结果表明，即使初始答案是正确的，当语言模型面临质疑、否定或误导等干扰时，判断一致性会大幅降低。此外，我们还研究了不同设置下模型的判断一致性，并观察了提示语气对此问题的影响，进行了深入的错误分析以获得更深入的行为洞察。此外，我们还探索了几种提示方法以缓解此问题，并展示了它们的有效性。

Oct, 2023

用 Flip-Flop 语言建模揭示注意力漏洞

本文研究了语言模型存在的错误和推理失误现象，特别是对于长链推理问题的脆弱性，提出了认知故障这一现象，并通过引入翻转语言建模进行了分析，讨论了自注意力机制失效的原因和解决方法。

Jun, 2023

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

RefuteBench：评估大型语言模型的反驳指令跟随

该研究论文介绍了大型语言模型在接受用户反馈方面的问题，并提出了一个包括问答、机器翻译和电子邮件写作等任务的综合评估基准 RefuteBench。研究发现，大型语言模型倾向于自身内部知识，并且在对话过程中逐渐遗忘用户的反馈，而回归到自己的回复，通过召回和重复提示的方式可以提高模型响应用户反馈的能力。

Feb, 2024

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

LLM 对于面向任务的对话系统是否足够？

本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力，发现在显式信仰状态跟踪方面，它们表现不如专门的任务特定模型，但是如果给出正确的插槽值，它们表现出将对话引导到成功结局的能力，并且在有真实信仰状态分布或域内示例的情况下，这种能力得到了改进。

Apr, 2023

大型语言模型驱动的课堂翻转：通过翻转交互赋能学生中心的同学提问

通过翻转教室、交互翻转等技术，利用 OpenAI 的 GPT 系列模型作为语言模型，实现了学生生成问题和教师个性化培训路径的自主调节，有效缩小了教师与学生之间的距离，提供了优化教学步伐和积极参与课堂体验的可能性。

Nov, 2023

大型语言模型能否以准确的文字表达其内在不确定性？

大型语言模型通常无法准确表达其内在的不确定性，因此需要更好的对齐以提高其可信度。

May, 2024

当 LLM 遇到狡猾问题：一个针对大型语言模型的谬论理解基准测试

我们在这篇论文中通过提出一个包含狡猾问题的 FaLlacy Understanding Benchmark (FLUB) 来挑战大型语言模型的推理和理解能力，该 Benchmark 包含了从真实互联网环境中收集的棘手、幽默和误导性问题，我们设计了三个难度递增的任务，用于评估 LLM 的谬误理解能力。基于 FLUB，我们研究了多个代表性和先进的 LLM 的性能，反映出 FLUB 具有挑战性且值得进行更多的未来研究。通过我们的广泛实验证明和详细分析，我们获得了有趣的发现和有价值的见解。我们希望我们的 Benchmark 能够鼓励社区改进 LLM 的理解谬误的能力。

Feb, 2024

LLM 有针对性的低效率问题主要影响弱势用户

通过对三种领先的大型语言模型 (LLM) 和两个不同的针对真实性和事实性的数据集进行深入实验，我们研究了 LLM 响应质量在信息准确性、真实性和拒绝方面如何随用户的英语水平、教育水平和国籍的不同而变化。我们的研究结果表明，领先的 LLM 模型在不可取的行为方面存在不均衡，对英语水平较低、教育水平较低和来自美国以外的用户具有更多的不可取行为，从而使这些模型对于最弱势的用户成为不可靠的信息来源。

Jun, 2024