利用贝叶斯统计模型,研究了大型语言模型(LLMs)在人类行为预测方面的类人特性,发现 LLMs 不能准确捕获人类数据的各项细节,但在聚合和条件水平的预测方面可以有效适配人类数据,显示出某些不同的方法可以使其得到充分的分布式预测。
Jun, 2024
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023
本文探究了语言模型在解释和生成不确定表达时的行为,并发现当模型以确定性的语言输出时,模型的准确性会有所下降。这些结果突显了建立有能力解释和生成可信任的不确定表达的语言模型的挑战。
Feb, 2023
该论文评估了语言和视觉 - 语言模型的可靠性,并提出了新的日本不确定场景数据集以及测量校准误差的方法。结果表明,语言和视觉 - 语言模型都存在较高的校准误差,并且大部分时间都表现出过度自信,说明其对不确定性估计的能力较弱。此外,研究还发展了回归任务的提示方法,并证明视觉 - 语言模型在生成均值 / 标准差和 95% 置信区间时存在校准不良。
May, 2024
通过研究语言模型在下一个单词预测任务中的表现与人类行为模式的比较,发现人类与 GPT-2 语言模型在文本展现初期表现强相关,随着记忆(或背景学习)的作用逐渐发挥,二者的表现迅速分歧,研究发现这种分歧的原因是特定的中间层注意力头部,为此通过在这些注意力头部中添加幂律最近偏倚,构建了一个更接近人类行为的模型,希望此案例能够推动将语言模型更加贴近人类行为的未来研究。
Oct, 2023
通过大型语言模型中的线性探针和无监督方法,研究确定性认知不确定性与随机认知不确定性的可行性,为多样化实际场景中模型置信度提供更详细的指标。
Feb, 2024
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
语言模型仅通过文本训练,但仍然可以推断和表示产生语境的人的代理人属性,包括细粒度的交际意图和抽象的信仰和目标,并被用于构建通信和行为系统。
Dec, 2022
研究表明,使用语言模型(LMs)可以处理人类编码的文本,通过与人类编码员的比较,我们发现 GPT-3 可以达到与人类编码员相当的表现水平,这为在很多领域中应用语言模型来处理文本提供了证据。
Jun, 2023
将语言模型从音频转换到文本,并且生成可校准的长篇文本,以便用户能够在后续决策中作出校准的概率预测。
Mar, 2024