TruthfulQA：衡量模型模仿人类错误的程度

ACLSep, 2021

TruthfulQA：衡量模型模仿人类错误的程度

TruthfulQA: Measuring How Models Mimic Human Falsehoods

Stephanie Lin, Jacob Hilton, Owain Evans

TL;DR提出了一种 benchmark 以衡量语言模型在生成答案时是否真实，测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型，发现最好的模型能够在 58％的问题上保持真实，建议使用不同于模仿网页文本的训练目标来进行微调以提高真实性。

Abstract

We propose a benchmark to measure whether a language model is truthful in generating answers to questions. The benchmark comprises 817 que

benchmark language model truthfulness imitation training objectives

发现论文，激发创造

模型对模型欺骗评估

高性能语言模型的可信度在能够生成欺骗性输出时受到威胁，本研究提出了一种方法来调查复杂的模型对模型的欺骗情景，并通过创建一个包含超过 10,000 个具有误导性的解释的数据集，发现当模型阅读这些解释时，它们都被显著欺骗，令人担忧的是，所有能力的模型都能成功地误导其他人，而能力更强的模型只稍微更擅长抵抗欺骗，因此建议开发检测和防御欺骗的技术。

May, 2024

真相机器：在 AI 语言模型中合成真实性

本文讨论了 AI 系统中真理的斗争及其对 InstructGPT 的性能进行了调查，强调了数据收集、模型架构和社会反馈机制如何将各种看法巧妙地综合并自信地呈现为真实陈述，提出了增强未来语言模型真理评估能力的两个可行方向，即丰富社交性和增强 “现实”。

Jan, 2023

测量大规模多任务语言理解

论文提出了一种新的测试方法，以测量文本模型的多任务准确性，涵盖了包括数学、历史、计算机科学、法律等 57 项任务，为了达到高准确性，模型必须具备丰富的世界知识和问题解决能力。通过综合评估模型的学术和专业理解的广度和深度，我们的测试可以用于分析许多任务中的模型并确定重要的缺陷。

Sep, 2020

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023

关于大型语言模型 “令人惊讶可能” 的回答的真实性研究

在这篇研究中，我们调查了类似于 Bayesian Truth Serum 的标准对 LLMs 的回答的相关性，并假设在一定条件下，根据这一标准最大化奖励的回答应该比仅最大化后验概率的回答更准确。通过使用包括 TruthfulQA 基准和开放可用的 LLMs（如 GPT-2 和 LLaMA-2）的基准实验证明该方法确实显著提高了准确性（例如，在 TruthfulQA 上的总体改进高达 24 个百分点，在各个问题类别上的改进高达 70 个百分点）。

Nov, 2023

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。

Nov, 2023

人物角色作为建模语言模型真实性的方法

大规模语言模型可以通过建模具有真实性特征的个体来聚类真实文本，并利用数据中的分层结构来学习抽象概念，从而扩展对真实与虚假信息的区分能力。

Oct, 2023

人工智能心理学的 “正确答案

在该研究中，我们使用 OpenAI 的 text-davinci-003 模型，即 GPT3.5，重复了 Many Labs 2 重复项目中的 14 项研究，其中我们的 GPT 样本在八项研究中复制了 37.5％的原始结果和 Many Labs 2 结果的 37.5％。然而，我们发现 GPT 模型在回答六个研究问卷中的问题时出现了极端的 “正确答案” 效应，这引发了对未来 AI 领域可能存在思想多样性降低的担忧。

Feb, 2023

真实回答的语言属性

通过 220 个手工制作的语言特征，研究了 LLM 的不实回答现象。重点关注 GPT-3 模型，并发现模型的语言特征在回答给定提示时保持相似。通过训练只依赖于模型响应的风格组件的支持向量机来分类陈述的真实性。尽管数据集大小限制了我们当前的发现，但我们提供有希望的证据表明可以在不评估内容本身的情况下检测真实性。

May, 2023

全球撒谎者：LLMs 随时间和地域的真实性

研究评估 GPT 模型的事实准确性、稳定性和偏见，发现较新版本的 GPT 模型并不总是具有更好的性能，存在地域偏见及信息不对称问题，强调了在模型训练和评估中的文化多样性和地理包容性的重要性，以实现全球科技公平和公正分配人工智能的好处。

Jan, 2024