我们能信任 LLMs 吗？通过知识传递减轻 LLMs 中的过度自信偏见

May, 2024

我们能信任 LLMs 吗？通过知识传递减轻 LLMs 中的过度自信偏见

Can We Trust LLMs? Mitigate Overconfidence Bias in LLMs through Knowledge Transfer

Haoyan Yang, Yixuan Wang, Xingyin Xu, Hanyuan Zhang, Yirong Bian

TL;DR使用知识传递方法，通过链式思维探究缓解 LLMs 中的过度自信偏差以提高其可靠性，实验评估表明知识传递方法在多个指标上优于传统的 Fine-tuning 和 QA 方法，强调了该方法在提升模型可信度和准确性方面的潜力。

Abstract

The study explores mitigating overconfidence bias in llms to improve their reliability. We introduce a knowledge transfer (KT) method utilizing chain of thoughts, where "big" →

overconfidence bias llms knowledge transfer method sequential reasoning model trustworthiness

发现论文，激发创造

基于知识驱动的协同训练：探索 LLMs 中的忠实推理与知识密集型问答

通过与外部知识的交互，我们提出了一个名为知识驱动的思路连贯（KD-CoT）的框架，以验证和修改语言模型的推理过程，以缓解幻觉和错误传播，尤其在回答知识密集型任务时。

Aug, 2023

使用知识图谱直接评估多跳推理中的思路一致性

大型语言模型（LLMs）在生成连贯思路解释时展现出强大的推理能力，然而，之前的研究仅关注于回答的准确性，忽略了生成的连贯思路的正确性。本文通过利用知识图谱（KGs）深入探讨 LLMs 在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式，用于评估 LLMs 关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对 5 个不同家族的 LLMs 进行的实验证明，LLMs 具有足够的知识进行推理，然而，LLMs 生成的连贯思路的准确性与回答的准确性存在显著差异，表明它们经常通过错误的推理方法得出正确的答案。

Feb, 2024

LLMs 能否从以往错误中学习？调查 LLMs 的错误以提升推理能力

这项研究从提示和模型调整的角度探究 LLMs 是否能够从错误中学习和受益，特别是在推理方面，通过引入 CoTErrorSet 基准测试，设计了自我反思提示和错误调整两种方法，证明 LLMs 能够从错误中受益，进而增强其推理能力，并对 LLMs 错误原因进行了深入分析。

Mar, 2024

LLMs 是否能够表达他们的不确定性？LLMs 中置信度引出的经验评估

本研究探讨了不需要模型微调或专有信息的自信度引出方法，通过基于词汇、一致性和混合等三种类别的方法的基准评估和评估，揭示了语言模型的自信度过高以及一些方法的优点。

Jun, 2023

TinyLLM: 从多个大型语言模型中学习一个小型学生

通过知识蒸馏，从多个大型教师语言模型中学习小型学生语言模型 TinyLLM，以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题，并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境，从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性，结果表明尽管模型尺寸较小，但 TinyLLM 可显著优于大型教师语言模型。

Feb, 2024

大型语言模型必须学会自知之明

在高风险应用中使用大型语言模型（LLMs）时，我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的，然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制，并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。

Jun, 2024

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024

关于 LLMs 的隐含风险评估：关于鲁棒性，一致性和可信度的实证研究

本研究使用自动化工作流程，对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询，得出了 LLM 在稳健性、一致性和可信度方面存在的问题，提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。

May, 2023

我不再信任你！—— 高等教育中学生 LMS 使用对讲师学生信任的影响

利用大型语言模型 (Large Language Models，LLMs) 对学生的影响如何对信息公正性和程序公正性产生影响，从而影响团队信任和预期团队绩效，对教育中利用 LLMs 的使用进行了研究并提出了相应的指导方针。

Jun, 2024

LLM 何时需要检索增强？缓解 LLM 的过度自信有助于检索增强

通过量化测量大型语言模型（LLMs）对知识边界的感知能力，以及研究问题确定度与 LLMs 对外部检索信息依赖性之间的相关性，我们提出了几种增强 LLMs 知识边界感知能力的方法，并证明它们在减少自信心方面是有效的。在配备了这些方法的情况下，LLMs 可以以更少的检索调用实现与检索增强相当甚至更好的性能。

Feb, 2024