GRATH: 大型语言模型渐进式自我真实化

Jan, 2024

GRATH: 大型语言模型渐进式自我真实化

GRATH: Gradual Self-Truthifying for Large Language Models

Weixin Chen, Bo Li

TL;DR通过利用 GRAdual self-truTHifying (GRATH) 方法，不需要注释答案，仅使用问题提示和优化模型来提高大型语言模型的真实性，结果表明 GRATH 在 TruthfulQA 上取得了最先进的性能。

Abstract

truthfulness is paramount for large language models (LLMs) as they are increasingly deployed in real-world applications. However, existing LLMs still struggle with generating truthful answers and content, as evid

large language models truthfulness gradual self-truthifying dpo benchmark datasets

发现论文，激发创造

面向大型语言模型的多尺度真实性通过干预而无需调整

通过使用多维正交探针揭示隐藏的真实表示，Truth Forest 方法在大型语言模型中增强真实性，减少产生错觉，以及通过随机查看在序列内改进真实特征的生成，这种方法将 Llama-2-7B 在 TruthfulQA 数据集上的真实性从 40.8% 提高到 74.5% 并显著改善了微调模型，探针的可视化结果表明正交探针捕获了互补的与真实相关的特征，并形成揭示数据集固有结构的良好定义的聚类。

Dec, 2023

关于大型语言模型 “令人惊讶可能” 的回答的真实性研究

在这篇研究中，我们调查了类似于 Bayesian Truth Serum 的标准对 LLMs 的回答的相关性，并假设在一定条件下，根据这一标准最大化奖励的回答应该比仅最大化后验概率的回答更准确。通过使用包括 TruthfulQA 基准和开放可用的 LLMs（如 GPT-2 和 LLaMA-2）的基准实验证明该方法确实显著提高了准确性（例如，在 TruthfulQA 上的总体改进高达 24 个百分点，在各个问题类别上的改进高达 70 个百分点）。

Nov, 2023

两全其美：迈向一个真实和有用的大型语言模型

这篇论文介绍了如何通过确保大语言模型的诚实和帮助性来优化其在实际应用中的表现，包括建立诚实的准则、引入数据集进行评估和提出两种增强诚实和帮助性的方法。实验证明，这些增强方法可以显著提升大语言模型的诚实性和帮助性，有望为开发更可靠的实际应用语言模型奠定基础。

Jun, 2024

TruthfulQA：衡量模型模仿人类错误的程度

提出了一种 benchmark 以衡量语言模型在生成答案时是否真实，测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型，发现最好的模型能够在 58％的问题上保持真实，建议使用不同于模仿网页文本的训练目标来进行微调以提高真实性。

Sep, 2021

地球是平的吗？揭示大型语言模型中的事实错误

我们引入了一种名为 FactChecker 的新型自动化测试框架，通过构建事实知识图谱、生成包括不同类型问题和正确答案的测试用例，以及使用匹配策略评估大型语言模型的响应准确性，从而揭示了大型语言模型中的事实错误，并展示了测试用例对提高模型的事实准确性的有效性。

Jan, 2024

真相机器：在 AI 语言模型中合成真实性

本文讨论了 AI 系统中真理的斗争及其对 InstructGPT 的性能进行了调查，强调了数据收集、模型架构和社会反馈机制如何将各种看法巧妙地综合并自信地呈现为真实陈述，提出了增强未来语言模型真理评估能力的两个可行方向，即丰富社交性和增强 “现实”。

Jan, 2023

ChaTA：运用开源 LLMs 构建智能问答辅导助手

为应对可扩展且智能的问答挑战，我们引入了一种创新解决方案，利用开源的大型语言模型（LLMs）来确保数据隐私。我们在一个入门计算机科学课程的 Piazza 数据集上进行了实验，并对一个小的子集进行了人工评估和自动 LLM 评估。我们初步发现通过多种建模技术能够将答案的质量提升 33％，而 RAG 是一个有影响力的改进。这项工作为开发适用于在线问答平台的智能 QA 助手 ChaTA 打下了基础。

Nov, 2023

背景问题：为科学应用数据高效扩充的大型语言模型

本文研究了大型语言模型（如 GPT-4）存在的挑战，特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战，旨在增强对此类错误的理解和缓解，从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外，我们证明了在正确校准的情况下，可能实现自动评分 —— 这一发现表明，至少在某种程度上，LLMs 可以用于自我检验其性能质量。最后，我们描述了一个实验平台，可以被视为对本文描述的技术的概念验证。

Dec, 2023

TrustGPT：大型语言模型的信任度和责任性基准

本研究旨在通过引入 TrustGPT，评价 LLMs 在毒性、偏见和价值对齐三个关键领域，以促进更具伦理和社会责任感的语言模型的发展。

Jun, 2023

大型语言模型中的事实知识系统评估

通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识，本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案，然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了最先进的 LLMs，实验证明 ChatGPT 在所有领域中始终是最佳表现者。我们还发现 LLMs 的表现取决于指导微调、领域和问题的复杂性，并且容易受到对抗性环境的影响。

Oct, 2023