通过使用大型语言模型，在 RST 篇章分析中能否取得显著成功？

ACLMar, 2024

通过使用大型语言模型，在 RST 篇章分析中能否取得显著成功？

Can we obtain significant success in RST discourse parsing by using Large Language Models?

Aru Maekawa, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura

TL;DR本文研究了具有数十亿参数的解码器预训练大型语言模型（LLMs）对修辞结构理论（RST）的语篇分析的影响，并且在基于自上而下和自下而上策略的语篇解析过程中，将此解析过程转化为 LLMs 可以处理的提示，并通过 Llama 2 进行了微调。实验结果表明，具有 700 亿参数的 Llama 2 在自下而上策略上获得了领先的成绩，相较于现有的 RST-DT 训练的解析器具有显著的差异。此外，在 RST-DT 上评估时，我们的解析器表现出了一定的泛化能力，尽管是使用 GUM 语料库进行训练，但获得了与使用 RST-DT 训练的现有解析器类似的性能。

Abstract

Recently, decoder-only pre-trained large language models (LLMs), with several tens of billion parameters, have significantly impacted a wide range of natural language processing (NLP) tasks. While encoder-only or encoder-decoder pre-trained language models have already proved to be eff

pre-trained language models decoder-only models rhetorical structure theory discourse parsing bottom-up strategy

发现论文，激发创造

发掘神经言语解析器的能力 —— 使用大规模预训练的上下文和结构感知方法

这篇论文提出了一个简单但高精度的 RST 语篇分析器，采用最近的上下文语言模型，表现出两个重要数据集，RST-DT 和 Instr-DT 的最新技术性能。研究人员还表明，在最近可用的大规模 “银标准” 话语树库 MEGA-DT 上预训练我们的分析器可以提供更大的性能改进，这为话语分析领域提供了一种新的有前途的研究方向。

Nov, 2020

一种简单且强大的端到端神经 RST 风格篇章分析基线

本篇论文探讨了一种强有力的基准线，通过将现有的简单解析策略（自上而下和自下而上）与各种基于 Transformer 的预先训练的语言模型进行集成，实现了 RST 风格的话语解析模型的推广和进一步发展。实验结果表明，解析性能强烈依赖预先训练的语言模型，尤其是 DeBERTa 对自下而上解析器表现的大幅提升。此外，我们还发现具有跨度屏蔽方案的语言模型特别能提高解析性能。

Oct, 2022

多语言神经 RST 话语分析

研究了通过利用多语言向量表示和采用源内容的分段级别翻译建立神经交叉语言篇章分析器的两种方法，并表明这两种方法即使在有限的训练数据下也有效，并且在所有子任务上实现了跨语言、文档级的篇章分析性能。

Dec, 2020

基于序列标注的自顶向下篇章分析

本研究介绍了一种自上而下的话语分析方法，该方法的目标是将文档迭代地分段成个体话语单元，这种方法不仅消除了解码器，而且减少了划分点的搜索空间，同时使用了 LSTM 模型，在全指标下达到了最新的 RST 分析结果。

Feb, 2021

基于自然语言的增强式偏好学习

使用大型语言模型（LLM）进行比较文本分类任务，不需微调，性能优于现有方法，特别是在较长的文本中。零样本学习的性能不如少样本学习。

Oct, 2023

不要总是看向右边：探究基于解码器的大型语言模型在序列标注中的能力

提前训练的语言模型能够通过改进序列标记任务的表现，优于基于自回归语言模型的编码器，并通过去除因果掩码在信息提取任务中取得了与前沿模型相媲美的性能。

Jan, 2024

自动生成巨大，快速生成：快速自回归解码的 LLM-to-SLM

我们提出了一种混合方法，结合不同规模的语言模型以提高自回归解码的效率，同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记，然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比，我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升，但只有 1-2% 的性能损失。

Feb, 2024

使用大语言模型引导多语言语义分析器

使用大型语言模型通过少量提示将英文数据集转化为多种语言，以实现多语言语义解析，并在两个公共数据集上与传统的翻译 - 训练方法进行比较，表明使用 LLM 更有效。

Oct, 2022

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

探究神经语言模型的修辞能力

本文介绍一种定量评估神经语言模型修辞能力的方法，研究发现，基于 BERT 的语言模型具有更强的修辞知识编码能力，而 GPT-2 则表现出较少的修辞知识。

Oct, 2020