探究神经语言模型的修辞能力

EMNLPOct, 2020

Examining the rhetorical capacities of neural language models

Zining Zhu, Chuer Pan, Mohamed Abdalla, Frank Rudzicz

TL;DR本文介绍一种定量评估神经语言模型修辞能力的方法，研究发现，基于 BERT 的语言模型具有更强的修辞知识编码能力，而 GPT-2 则表现出较少的修辞知识。

Abstract

Recently, neural language models (LMs) have demonstrated impressive abilities in generating high-quality discourse. While many recent papers have analyzed the syntactic aspects encoded in LMs, there has been no analysis to date of the inter-sentential, →

neural language models rhetorical knowledge linguistic features bert-based lms gpt-2

发现论文，激发创造

神经语言模型的语言学分析

本文探究了神经语言模型（NLM）在调整细节后所学习到的语言知识及其对于多种分类问题的预测影响，结合多重探测任务发现，尽管 BERT 能够编码多种语言特征，但在特定的下游任务训练后往往导致相关信息丢失，而 BERT 对于不同语言属性的编码能力将正面影响它的预测能力。

Oct, 2020

通过使用大型语言模型，在 RST 篇章分析中能否取得显著成功？

本文研究了具有数十亿参数的解码器预训练大型语言模型（LLMs）对修辞结构理论（RST）的语篇分析的影响，并且在基于自上而下和自下而上策略的语篇解析过程中，将此解析过程转化为 LLMs 可以处理的提示，并通过 Llama 2 进行了微调。实验结果表明，具有 700 亿参数的 Llama 2 在自下而上策略上获得了领先的成绩，相较于现有的 RST-DT 训练的解析器具有显著的差异。此外，在 RST-DT 上评估时，我们的解析器表现出了一定的泛化能力，尽管是使用 GUM 语料库进行训练，但获得了与使用 RST-DT 训练的现有解析器类似的性能。

Mar, 2024

大型语言模型：分析 LLMs 的理论语言能力

该研究探讨了大型语言模型的元语言能力，通过针对几种语言学分支的实验以及命令设计，分析了 GPT-4 生成元语言分析的能力及其局限性，并提供了未来的研究方向。

May, 2023

多语言神经 RST 话语分析

研究了通过利用多语言向量表示和采用源内容的分段级别翻译建立神经交叉语言篇章分析器的两种方法，并表明这两种方法即使在有限的训练数据下也有效，并且在所有子任务上实现了跨语言、文档级的篇章分析性能。

Dec, 2020

大型语言模型中的叙事处理分析：使用 GPT4 测试 BERT

使用基于 transformer 的大型语言模型（LLMs）的 ChatGPT 作为研究对象，通过分析 BERT 隐藏单元的激活模式，发现其在不同层次上根据文体变异（1）和叙事内容（4-5）进行聚类，揭示了 LLMs 内部的区别任务处理机制，为深入研究人类语言处理和认知过程提供了潜力。

May, 2024

神经网络中的新兴语言结构是脆弱的

本文提出了一种基于探测任务的神经网络模型的韧性度量方法，在通过语言模型中提取出的语言结构上评估了四种大型语言模型的一致性和鲁棒性，并发现神经网络的新兴句法表示具有脆弱性。

Oct, 2022

两个基于语篇的语言模型用于语义

本文提出了两个模型，即语义链模型和话语信息模型，并探究了四种实现方式。通过在语义自然语言处理任务中进行实验验证，证明我们的语义语言模型（SemLM）可以提高共指消解和话语分析等性能。

Jun, 2016

您是一位专业的语言标注专家”：LLMs 作为抽象意义表达分析器的限制

通过比较 GPT-3、ChatGPT 和 GPT-4 模型的分析结果，研究发现这些模型能够可靠地重现 AMR 的基本格式，并且通常能够捕捉到核心事件、论证和修饰结构，但模型的输出容易出现频繁和重大错误，从整体上来看，即使在演示中，模型也几乎没有成功地产生完全准确的解析结果，这表明这些模型尽管能够捕捉到语义结构的某些方面，但在支持完全准确的语义分析或解析方面仍存在关键的局限性。

Oct, 2023

评估神经语言模型作为语言习得的认知模型

神经语言模型（LM）在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现，尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格，并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时，LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集，这些数据集已由大量母语用户进行了梯度可接受性评估，并旨在特别探索语法的结构基础。在这样一种数据集（LI-Adger 数据集）上，LM 在评估句子时与人类语言用户的方式不一致。最后，我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。

Oct, 2023

整合语言学理论和神经语言模型

本篇论文旨在探讨比较语言学理论和神经语言模型之间的相关性，其中使用了语言模型来衡量语义距离并研究了其对于语言学的意义、提出了衡量语言模型中的意外性的方法以及证明了该方法在探究语言运用的知识结构方面的有效性。

Jul, 2022