可靠性检查：对 GPT-3 在敏感话题和提示措辞方面响应的分析

ACLJun, 2023

可靠性检查：对 GPT-3 在敏感话题和提示措辞方面响应的分析

Reliability Check: An Analysis of GPT-3's Response to Sensitive Topics and Prompt Wording

Aisha Khatun, Daniel G. Brown

TL;DR研究分析了大型语言模型对敏感主题的反应和提示措辞对模型反应的影响，结果显示 GPT-3 在肯定的阴谋论和刻板印象方面反应正确，但在常见的错误观念和争议方面则会出现错误，暴露出其不可靠性。

Abstract

large language models (LLMs) have become mainstream technology with their versatile use cases and impressive performance. Despite the countless out-of-the-box applications, LLMs are still not reliable. A lot of work is being done to improve the →

large language models factual accuracy ethical standards fine-tuning reinforcement learning

发现论文，激发创造

促进 GPT-3 的可靠性

本研究为了提高 OpenAI GPT-3 的可靠性，将其可靠性分解为四个方面：泛化性、社会偏见、校准性和事实性，并建立了简单有效的提示来提高其可靠性。通过适当的提示，GPT-3 在所有这些方面都比规模较小的监督模型更可靠。

Oct, 2022

评估 GPT-3.5 和 GPT-4 在支持医疗服务实际信息需求方面的作用

本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后，通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明，虽然这两个模型能够提供安全和可信的响应，但往往不能满足给定问题的特定信息需求。

Apr, 2023

评估 LLMs 在著名人士中的性别差异

该研究评估了大型语言模型对获取事实信息的使用，特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向，并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异，尽管 GPT-4 的进展改善了性能，但并未完全消除这些性别差异，特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。

Mar, 2024

辩论评估中大型语言模型的实证分析

使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究，发现 LLMs 在评估上的表现超过人类，并超过基于大量数据集微调的最先进方法。同时，研究了 LLMs 中存在的偏见，包括位置偏见、词汇偏见和顺序偏见，这可能会影响它们的评价判断。我们的发现表明，无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见，这归因于提示设计。此外，在 GPT-3.5 和 GPT-4 中也存在词汇偏见，特别是当含义具有数字或顺序的标签集时，强调在提示设计中需谨慎选择标签的表述。此外，我们的分析表明，这两个模型倾向于认为辩论的结束方是获胜方，暗示存在讨论末尾的偏见。

May, 2024

大型语言模型在高估重要性方面存在偏见

近期，大型语言模型（LLMs），如 GPT-4，在自然语言处理方面取得了显著进展并接近人工通用智能。然而，本研究对 GPT-4 和其他 LLMs 进行评估，评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现，无论是什么类型的陈述和提示技术，LLMs 与人类之间存在显著的陈述一致性。然而，LLMs 系统地高估了无意义陈述的深度，除了 Tk-instruct 外，它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类，而非思维链式的提示将 LLMs 的评分远离人类。此外，本研究揭示了强化学习来自人类反馈所引发的潜在偏见，即高估陈述的深度。

Oct, 2023

大语言模型事实核查的风险与前景

自动事实核查（使用机器学习来验证主张）已经变得至关重要，因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型（LLMs），如 GPT-4，越来越受人们的信任，可以验证信息并撰写学术论文、诉讼文件和新闻文章，强调了它们在分辨真假和能够验证其输出的重要性。在这里，我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是，在我们的框架中，代理人解释他们的推理并引用检索到的相关来源。我们的结果显示，在配备上下文信息的情况下，LLMs 表现出更强大的能力。GPT-4 优于 GPT-3，但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景，但仍需要谨慎使用，因为准确性不一致。我们的调研呼吁进一步研究，以更深入地了解代理人何时成功以及何时失败。

Oct, 2023

关于语言理解任务，GPT-3.5 对前身模型的鲁棒性有多强？一项全面研究

该研究全面评估了 GPT-3.5 在 21 个数据集上进行文本转换后的表现，发现其在某些任务上表现优异，但仍存在重大的鲁棒性降级，而且 GPT-3.5 面临着一些特定的鲁棒性挑战，这些发现对于了解其限制以及指导未来的研究具有重要价值。

Mar, 2023

ChatGPT 公平性与可解释 - 引导提示的作用

大规模语言模型在信用风险评估中的潜力研究表明，当遵循精心设计的提示并辅以领域特定知识时，这些语言模型可以与传统机器学习模型的性能相媲美。尤其值得注意的是，它们只使用了极少的数据 - 仅 20 个数据点，相比于机器学习模型的 800 个数据点少了 40 倍。大规模语言模型在降低误报率和增强公平性方面表现出色，这两个方面对于风险分析至关重要。虽然我们的结果没有超过传统机器学习模型，但它们突显了大规模语言模型在类似任务中的潜力，并为未来在多样化的机器学习任务中利用大规模语言模型的能力奠定了基础。

Jul, 2023

灰色中的人工智能：对有争议主题中对话型大语言模型的调控政策与人类回答的探究

通过将 ChatGPT 暴露在具有争议性的问题上，我们旨在了解其意识水平，以及现有模型是否存在社会政治和 / 或经济偏见。同时，我们还旨在探讨人工智能生成的答案与人类答案的对比情况。通过使用社交媒体平台 Kialo 创建的数据集来进行探索。我们的研究结果表明，尽管 ChatGPT 的以前版本在争议性话题上存在重要问题，但最近的版本 (gpt-3.5-turbo) 在多个知识领域中不再表现出明显的显性偏见，特别是在经济方面进行了很好的调节。然而，它仍然保持着一定程度的对右倾意识形态的隐性倾向，这表明需要从社会政治的观点增加更多的调节。在争议话题的领域知识方面，除了 “哲学” 类别外，ChatGPT 在跟上人类集体知识水平方面表现良好。最后，我们发现与人类答案相比，Bing AI 的信息来源在倾向中立方面略有增加。我们的所有分析都具有普遍适用于其他类型的偏见和领域。

Aug, 2023

超越炒作：评估 GPT3.5 的性能、可信度和临床适用性

本研究旨在评估一个新型的大型语言模型 GPT3.5 在医学图像协议分配上的表现，并与经过微调的 BERT 模型和放射科医生进行比较。结果显示，GPT3.5 在性能方面略逊于 BERT 和放射科医生，但在解释决策、检测相关词汇指标和模型校准方面优于 BERT。此外，我们还发现了一些系统性错误，需要加以解决以提高其在临床中的使用安全性和适用性。

Jun, 2023