揭示 LLM 在时间数据上的不同归纳偏见
使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究,发现 LLMs 在评估上的表现超过人类,并超过基于大量数据集微调的最先进方法。同时,研究了 LLMs 中存在的偏见,包括位置偏见、词汇偏见和顺序偏见,这可能会影响它们的评价判断。我们的发现表明,无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见,这归因于提示设计。此外,在 GPT-3.5 和 GPT-4 中也存在词汇偏见,特别是当含义具有数字或顺序的标签集时,强调在提示设计中需谨慎选择标签的表述。此外,我们的分析表明,这两个模型倾向于认为辩论的结束方是获胜方,暗示存在讨论末尾的偏见。
May, 2024
该研究旨在调查通用型大型语言模型在需要时间理解的任务中面临的潜在限制,针对三个流行的时间问答数据集,我们发现大型语言模型在关于过去和新信息的详细问题上表现较差,存在多个时间错误,我们的分析有助于理解大型语言模型的局限性,并为开发更好满足时间导向任务需求的未来模型提供有价值的见解。
Jan, 2024
该研究评估了大型语言模型对获取事实信息的使用,特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向,并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异,尽管 GPT-4 的进展改善了性能,但并未完全消除这些性别差异,特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。
Mar, 2024
本研究通过使用心理学方法,展示了大型语言模型(LLMs),尤其是 GPT-3,表现出类似于人类直觉的行为和认知错误,而具有更高认知能力的 LLMs,特别是 ChatGPT 和 GPT-4,学会避免这些错误,并表现出超理性的方式;此外,我们还探究了直觉决策倾向的稳定程度。
Jun, 2023
近期,大型语言模型(LLMs),如 GPT-4,在自然语言处理方面取得了显著进展并接近人工通用智能。然而,本研究对 GPT-4 和其他 LLMs 进行评估,评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现,无论是什么类型的陈述和提示技术,LLMs 与人类之间存在显著的陈述一致性。然而,LLMs 系统地高估了无意义陈述的深度,除了 Tk-instruct 外,它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类,而非思维链式的提示将 LLMs 的评分远离人类。此外,本研究揭示了强化学习来自人类反馈所引发的潜在偏见,即高估陈述的深度。
Oct, 2023
大型语言模型(LLMs)通常在广泛的、时间不加区分的文本语料库上进行训练,反映了缺乏带有时间元数据的数据集。本文提出了一种新的方法:一系列时间点的 LLMs,称为 Time Machine GPT(TiMaGPT),专门设计为非预测性的。这确保它们对未来的事实信息和语言变化保持不知情,这种策略对于理解语言的演化以及在动态环境下应用模型(如时间序列预测)尤为重要。我们提供模型和训练数据集的访问权限。
Apr, 2024
研究分析了大型语言模型对敏感主题的反应和提示措辞对模型反应的影响,结果显示 GPT-3 在肯定的阴谋论和刻板印象方面反应正确,但在常见的错误观念和争议方面则会出现错误,暴露出其不可靠性。
Jun, 2023
通过 OpinionGPT 演示,我们展示了 OpinionGPT 网页应用,用户可以提问并选择他们希望调查的各种偏见。通过对代表不同偏见的文本进行 fine-tuning,提供模型答案的比较,以增强透明度和显性化地处理偏见。
Sep, 2023
大型语言模型的进展展示了在各个应用领域的强大能力,包括心理健康分析。然而,现有的研究着重于预测性能,对公平性这一关键问题的探讨不足,给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集,使用十种不同的提示方法,系统地评估了七个社会因素的偏见。结果表明,GPT-4 在性能和公平性方面实现了最佳的平衡,尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外,我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见,凸显了在该领域进行公平分析的巨大潜力。
Jun, 2024