GPT-2 中的花园路遍历

EMNLPMay, 2022

Garden-Path Traversal in GPT-2

William Jurayj, William Rudman, Carsten Eickhoff

TL;DR本研究提出了一系列分析 GPT-2 内部状态的方法，并以对花园路径句子的遍历作为案例研究，使用最大的可用数据集编译了花园路径句子，并展示了曼哈顿距离和余弦相似性提供了比分析下一个标记概率更可靠的见解。通过这些方法，研究发现否定标记对动词对象明确的句子的表示影响较小，而对语态造成歧义的明确句子的表示影响更大。研究还发现分析解码器模型的隐藏状态揭示了可能会产生花园路径效应的歧义期，而惊奇分析通常会忽略这一细节。

Abstract

In recent years, large-scale transformer decoders such as the GPT-x family of models have become increasingly popular. Studies examining the behavior of these models tend to focus only on the output of the language modeling head and avoid analysis of the →

transformer decoders gpt-2 internal states garden path sentences manhattan distances

发现论文，激发创造

大型语言模型逐步理解句法有迷惑作用的句子：语义解释、句法重新分析和注意力

阅读临时模糊句子时，错误解释有时会一直存在，甚至超过消除模糊的点。本研究通过使用四种大型语言模型（LLMs）——GPT-2、LLaMA-2、Flan-T5 和 RoBERTa，以及在线和离线的测量方法，调查了对园路理解句子的处理和错误解释的命运。研究结果表明，当有额外的语法信息可以引导处理时，人类和 LLMs 在处理园路理解句子方面存在良好的一致性。

May, 2024

解读 Transformer 的注意力动态记忆与可视化 GPT 的语义信息流

通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释，我们可以将 GPT 的前向传递可视化为交互式流图，从而发现模型输出结果的原因和 LM 组件在模型中的作用。

May, 2023

黑盒分析：法律文本蕴含任务中的 GPTs 跨时限研究

对 COLIEE 任务 4 数据集中 Heisei 18（2006 年）到 Reiwa 3（2021 年）的日本法律文本具体判断能力的 GPT-3.5（ChatGPT）和 GPT-4 模型的分析揭示了模型在处理法律文本具体性任务方面的优点、缺点和性能模式，为未来优化 GPT-based 模型并在法律信息提取和具体性应用中成功采用奠定了基础。

Sep, 2023

ChatGPT 是否是地理编码的变革者 - 地理编码地址解析技术的标杆

通过对 GPT-3 模型在地址解析任务中的性能评估，研究表明双向 LSTM-CRF 模型在转换器模型和 GPT-3 模型中表现最好，转换器模型与双向 LSTM-CRF 模型相比展现出非常可比的结果。尽管 GPT-3 模型性能稍逊，但展示了在地址解析任务中利用少样本示例的潜力，同时还有通过额外的微调提升的空间。

Oct, 2023

未来视角：从单个隐藏状态预测后续标记

利用隐藏状态向量进行预测模型，使用线性逼近和因果干预方法对 GPT-J-6B 网络中的隐藏状态进行评估，发现某些层的单一隐藏状态可以以超过 48% 的准确率近似模型输出，并提出了 “未来镜头” 可视化方法来呈现 Transformer 状态。

Nov, 2023

GPT-3 的拓扑解读

通过使用不同的嵌入方法研究句向量与句子语义之间的相关性，我们观察到不同嵌入空间中相同句子的相关性以及相同嵌入空间中不同句子的相关性，这些观察结果与我们的假设一致并引领我们进入下一个阶段。

Aug, 2023

SGPT: 用于语义搜索的 GPT 句子嵌入

提出使用 SGPT 进行句子嵌入和语义搜索的方法，通过提示或微调，SGPT 在 BEIR 搜索基准上的表现优于先前最佳的句子嵌入方法，并且在 1750 亿个参数的并发方法上也取得了更好的效果。

Feb, 2022

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

GPT-2 中的隐性因果关系：案例研究

本文研究 GPT-2 语言模型在完成句子任务时对本土语音者的暗示因果直觉掌握程度，验证了早期的结果并研究了性别、动词词频对模型表现的影响，并开发了避免模型生成的非正常语言影响人工评判的方法学。

Dec, 2022

基于 xNot360 数据集的 GPT 负面情感检测评估分析

本研究评估了 Generative Pre-trained Transformer（GPT）模型，特别是 GPT-2、GPT-3、GPT-3.5 和 GPT-4 的否定检测性能，结论显示这些模型在否定检测中性能差异显著，GPT-4 的性能最优，GPT-3.5 则显示出明显的性能下降，并强调了在医疗、科学、法律等高风险领域合理逻辑的重要性

Jun, 2023