通过对 GPT-3 模型的测试,我们发现大型语言模型(LLMs)可能会出现几种人类认知效应,包括提前启动效应、距离效应、SNARC 效应和尺寸一致性效应,但缺乏锚定效应。我们描述了我们的方法学,并讨论了 GPT-3 出现这些效应的可能原因以及它们是模拟还是重新创造的问题。
Aug, 2023
本研究评估了 ChatGPT 在内容排序方面的能力,结果表明 ChatGPT 的排序偏好与人类的一定程度上一致。这证明了它具有一定的‘zero-shot ranking’能力,有潜力在许多排序任务中减轻注释压力。
Mar, 2023
本文研究了使用提示知识和不使用提示知识时,ChatGPT 生成的答案准确性的差异,并发现使用提示知识会降低答案的准确性。这对基于生成式预训练语言模型的更健壮和透明的问答系统的开发具有重要的启示作用。
Feb, 2023
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
大语言模型在零样本学习应用中表现出了显著的能力,仅仅使用预训练信息生成查询的响应,而无需额外的精调。先前的研究表明,大语言模型可能表现出串位效应,如首位和末位偏差,这是人类心理学中被广泛研究的认知偏差。我们在各种任务和模型上进行了广泛的测试,证实了这些效应的普遍存在,尽管它们的强度有所不同。我们还发现,虽然精心设计的提示可以在一定程度上缓解这些偏差,但其效果不一致。这些发现强调了串位效应在推理过程中的重要性,特别是在没有准确标签的情况下,凸显了需要更加关注处理大语言模型应用中的这些效应的重要性。
Jun, 2024
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
通过分析大型语言模型(LLMs)与入门级编程学生的交互,我们了解到了学生们与 ChatGPT-3.5 等相关工具的互动情况,这将对未来的高等教育入门级编程课程的教学实践和指导产生积极影响。
May, 2024
在本文中,研究人员探索了 ChatGPT 的新颖知识,在融合现有的自然语言处理技术时,如早期或晚期融合,增强了情感计算、自杀倾向检测和大五人格评估等问题的现有技术的能力。
Jul, 2023
分析 ChatGPT 对有性别偏见和提示分析的系统回应,检查其可用性和限制。
Sep, 2023