GPT-2 中的花园路遍历
阅读临时模糊句子时,错误解释有时会一直存在,甚至超过消除模糊的点。本研究通过使用四种大型语言模型(LLMs)——GPT-2、LLaMA-2、Flan-T5 和 RoBERTa,以及在线和离线的测量方法,调查了对园路理解句子的处理和错误解释的命运。研究结果表明,当有额外的语法信息可以引导处理时,人类和 LLMs 在处理园路理解句子方面存在良好的一致性。
May, 2024
通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释,我们可以将 GPT 的前向传递可视化为交互式流图,从而发现模型输出结果的原因和 LM 组件在模型中的作用。
May, 2023
对 COLIEE 任务 4 数据集中 Heisei 18(2006 年)到 Reiwa 3(2021 年)的日本法律文本具体判断能力的 GPT-3.5(ChatGPT)和 GPT-4 模型的分析揭示了模型在处理法律文本具体性任务方面的优点、缺点和性能模式,为未来优化 GPT-based 模型并在法律信息提取和具体性应用中成功采用奠定了基础。
Sep, 2023
通过对 GPT-3 模型在地址解析任务中的性能评估,研究表明双向 LSTM-CRF 模型在转换器模型和 GPT-3 模型中表现最好,转换器模型与双向 LSTM-CRF 模型相比展现出非常可比的结果。尽管 GPT-3 模型性能稍逊,但展示了在地址解析任务中利用少样本示例的潜力,同时还有通过额外的微调提升的空间。
Oct, 2023
利用隐藏状态向量进行预测模型,使用线性逼近和因果干预方法对 GPT-J-6B 网络中的隐藏状态进行评估,发现某些层的单一隐藏状态可以以超过 48% 的准确率近似模型输出,并提出了 “未来镜头” 可视化方法来呈现 Transformer 状态。
Nov, 2023
通过使用不同的嵌入方法研究句向量与句子语义之间的相关性,我们观察到不同嵌入空间中相同句子的相关性以及相同嵌入空间中不同句子的相关性,这些观察结果与我们的假设一致并引领我们进入下一个阶段。
Aug, 2023
提出使用 SGPT 进行句子嵌入和语义搜索的方法,通过提示或微调,SGPT 在 BEIR 搜索基准上的表现优于先前最佳的句子嵌入方法,并且在 1750 亿个参数的并发方法上也取得了更好的效果。
Feb, 2022
本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用,通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析,发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系,最深层次关注最远程的联系,并抽取了展现特定关注头目标的范例句子。
Jun, 2019
本文研究 GPT-2 语言模型在完成句子任务时对本土语音者的暗示因果直觉掌握程度,验证了早期的结果并研究了性别、动词词频对模型表现的影响,并开发了避免模型生成的非正常语言影响人工评判的方法学。
Dec, 2022
本研究评估了 Generative Pre-trained Transformer(GPT)模型,特别是 GPT-2、GPT-3、GPT-3.5 和 GPT-4 的否定检测性能,结论显示这些模型在否定检测中性能差异显著,GPT-4 的性能最优,GPT-3.5 则显示出明显的性能下降,并强调了在医疗、科学、法律等高风险领域合理逻辑的重要性
Jun, 2023