TruthfulQA:衡量模型模仿人类错误的程度
高性能语言模型的可信度在能够生成欺骗性输出时受到威胁,本研究提出了一种方法来调查复杂的模型对模型的欺骗情景,并通过创建一个包含超过 10,000 个具有误导性的解释的数据集,发现当模型阅读这些解释时,它们都被显著欺骗,令人担忧的是,所有能力的模型都能成功地误导其他人,而能力更强的模型只稍微更擅长抵抗欺骗,因此建议开发检测和防御欺骗的技术。
May, 2024
本文讨论了 AI 系统中真理的斗争及其对 InstructGPT 的性能进行了调查,强调了数据收集、模型架构和社会反馈机制如何将各种看法巧妙地综合并自信地呈现为真实陈述,提出了增强未来语言模型真理评估能力的两个可行方向,即丰富社交性和增强 “现实”。
Jan, 2023
论文提出了一种新的测试方法,以测量文本模型的多任务准确性,涵盖了包括数学、历史、计算机科学、法律等 57 项任务,为了达到高准确性,模型必须具备丰富的世界知识和问题解决能力。通过综合评估模型的学术和专业理解的广度和深度,我们的测试可以用于分析许多任务中的模型并确定重要的缺陷。
Sep, 2020
自然语言处理和大型语言模型在近期取得了显著进展,然而,大型语言模型常常会出现 “幻觉”,导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题,显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性,以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器,与人类判断具有强相关性,至少在维基百科领域。令人惊讶的是,在我们的研究中,最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器,甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。
Oct, 2023
在这篇研究中,我们调查了类似于 Bayesian Truth Serum 的标准对 LLMs 的回答的相关性,并假设在一定条件下,根据这一标准最大化奖励的回答应该比仅最大化后验概率的回答更准确。通过使用包括 TruthfulQA 基准和开放可用的 LLMs(如 GPT-2 和 LLaMA-2)的基准实验证明该方法确实显著提高了准确性(例如,在 TruthfulQA 上的总体改进高达 24 个百分点,在各个问题类别上的改进高达 70 个百分点)。
Nov, 2023
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
在该研究中,我们使用 OpenAI 的 text-davinci-003 模型,即 GPT3.5,重复了 Many Labs 2 重复项目中的 14 项研究,其中我们的 GPT 样本在八项研究中复制了 37.5%的原始结果和 Many Labs 2 结果的 37.5%。然而,我们发现 GPT 模型在回答六个研究问卷中的问题时出现了极端的 “正确答案” 效应,这引发了对未来 AI 领域可能存在思想多样性降低的担忧。
Feb, 2023
通过 220 个手工制作的语言特征,研究了 LLM 的不实回答现象。重点关注 GPT-3 模型,并发现模型的语言特征在回答给定提示时保持相似。通过训练只依赖于模型响应的风格组件的支持向量机来分类陈述的真实性。尽管数据集大小限制了我们当前的发现,但我们提供有希望的证据表明可以在不评估内容本身的情况下检测真实性。
May, 2023
研究评估 GPT 模型的事实准确性、稳定性和偏见,发现较新版本的 GPT 模型并不总是具有更好的性能,存在地域偏见及信息不对称问题,强调了在模型训练和评估中的文化多样性和地理包容性的重要性,以实现全球科技公平和公正分配人工智能的好处。
Jan, 2024