再问一次，然后失败：大型语言模型在判断中的摇摆

Oct, 2023

再问一次，然后失败：大型语言模型在判断中的摇摆

Ask Again, Then Fail: Large Language Models' Vacillations in Judgement

Qiming Xie, Zengzhi Wang, Yi Feng, Rui Xia

TL;DR利用教育中的质问策略，我们提出了一种 “跟进质问机制” 以及两个评估指标，用于评估大型语言模型在面对质疑时的判断一致性，并对 ChatGPT、PaLM2-Bison 和 Vicuna-13B 进行了评估。实证结果表明，即使初始答案是正确的，当语言模型面临质疑、否定或误导等干扰时，判断一致性会大幅降低。此外，我们还研究了不同设置下模型的判断一致性，并观察了提示语气对此问题的影响，进行了深入的错误分析以获得更深入的行为洞察。此外，我们还探索了几种提示方法以缓解此问题，并展示了它们的有效性。

Abstract

With the emergence of generative conversational large language models (LLMs) like ChatGPT, serving as virtual assistants in various fields, the stability and reliability of their responses have become crucial. However, during usage, it has been observed that these models tend to waver

generative conversational large language models follow-up questioning mechanism evaluation metrics judgement consistency promoting methods

发现论文，激发创造

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

大型语言模型是否总能解决简单问题，如果它们能解决更困难的呢？

研究中提出了 ConsisEval 基准，用于量化大型语言模型的一致性，并通过相对一致性得分分析改进一致性的潜力。综合实验结果表明，尽管 GPT-4 的一致性得分最高，但仍然对特定问题存在不一致性，这可能是由于多余信息干扰、对问题的错误解读等因素导致的。而能力更强的模型通常具有更高的一致性，但也存在例外情况，并且硬数据能够提高微调和上下文学习的一致性。

Jun, 2024

过度自信是关键：大型语言和视觉 - 语言模型中的口头不确定性评估

该论文评估了语言和视觉 - 语言模型的可靠性，并提出了新的日本不确定场景数据集以及测量校准误差的方法。结果表明，语言和视觉 - 语言模型都存在较高的校准误差，并且大部分时间都表现出过度自信，说明其对不确定性估计的能力较弱。此外，研究还发展了回归任务的提示方法，并证明视觉 - 语言模型在生成均值 / 标准差和 95% 置信区间时存在校准不良。

May, 2024

大型语言模型在价值问题上是否具有一致性？

大型语言模型似乎会在调查回答中表现出某种偏见，但有些人认为它们不够一致，无法模拟特定的价值观。为了回答这个问题，我们首先将价值一致性定义为（1）同一个问题的释义，（2）同一个主题下的相关问题，（3）单个问题的多项选择和开放性用例，以及（4）将问题翻译成英文、中文、德文和日文。我们将这些测量方法应用于几个大型（>=34b）的开源 LLM，包括 llama-3 和 gpt-4o，使用超过 300 个主题、八千个问题的数据。与之前的研究不同，我们发现模型在释义、用例、翻译和主题上相对一致。然而，仍然存在一些不一致之处。相对于微调模型，基础模型在一致性方面更加一致，并且在不同主题上保持一致，而微调模型在某些主题（如 “安乐死”）上的一致性较差，而在其他主题（如 “妇女权益”）上的一致性与人类研究对象（n=165）相似。

Jul, 2024

您确定吗？在 FlipFlop 实验中挑战 LLMs 导致性能下降

通过 FlipFlop 实验，该研究探讨了大型语言模型的多轮互动行为，发现模型在回答问题时会反思并改进答案，提供了分析模型行为和评估潜在解决方案的可靠框架。

Nov, 2023

LLM 认知判断与人类不同

GPT-3 和 ChatGPT 在认知科学文献中对有限数据归纳推理任务的能力被调查，结果表明这些模型的认知判断并非类似于人类。

Jul, 2023

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

评估中的生成 AI 悖论：它能解决的问题，可能无法评估

本研究探讨了大型语言模型在生成任务中表现出的能力是否同样适用于评估任务，通过使用 TriviaQA 数据集对三个大型语言模型和一个开源语言模型在问答和评估任务中的表现进行评估，结果显示存在显着差异，大型语言模型在评估任务中表现较差。有趣的是，我们发现存在不忠实的评估问题，即模型会在其不擅长的领域正确评估答案，强调了需要审查大型语言模型作为评估者的忠实度和可信度的必要性。本研究有助于理解 “生成型人工智能悖论”（West 等人，2023），强调了需要探索生成卓越性与评估能力之间的关联性，并有必要审视模型评估中的忠实度方面。

Feb, 2024

ChatGPT 的评价可信吗？

本文探讨了 ChatGPT 在不同任务中的表现评估问题，特别是针对数据污染问题，以 stance detection 为例，同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。

Mar, 2023