RST-LoRA: 面向长文档抽象摘要的语篇感知低秩适应

ACLMay, 2024

RST-LoRA: 面向长文档抽象摘要的语篇感知低秩适应

RST-LoRA: A Discourse-Aware Low-Rank Adaptation for Long Document Abstractive Summarization

Dongqi Pu, Vera Demberg

TL;DR本文引入 RST-LoRA，提出了四种 RST 感知的变体，明确将 RST 融入 LoRA 模型，评估结果表明，引入修辞关系的类型和不确定性可以有效增强 LoRA 在摘要任务中的性能，最佳性能的变体优于普通的 LoRA 和全参数微调模型，并超过以往最先进的方法。

Abstract

For long document summarization, discourse structure is important to discern the key content of the text and the differences in importance level between sentences. Unfortunately, the integration of →

long document summarization discourse structure rhetorical structure theory parameter-efficient fine-tuning strategies lora model

发现论文，激发创造

利用话语结构分布进行长文本抽象摘要

本文提出了一个新型的文本摘要模型，RSTformer，综合考虑了修辞关系的类型和不确定性，采用基于文档级修辞结构的 RST-attention 机制，取得了显著的性能优势。

May, 2023

参数高效的多语言摘要：实证研究

本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力，研究发现 LoRA 在低数据情况和跨语言转移中表现出色，当模型增大时，LoRA 和完全微调之间的性能差距减小，同时，继续训练 LoRA 获得了最佳的少样本跨语言转移表现。

Nov, 2023

关于 LoRA 的注释

LoRA 是一种高效适应大型语言模型 (LLM) 的首选方法，具有显著的简洁性和有效性，本文提供了对原始 LoRA 论文的补充视角，并为大规模部署 LoRA 提供了一系列的见解，以改善对 LoRA 的理解和应用。

Apr, 2024

SuperLoRA: 多层注意力模块参数高效统一适应

提出了一个称为 SuperLoRA 的广义框架，将不同的 LoRA 变体统一并扩展，通过引入分组、折叠、洗牌、投影和张量分解等方法，SuperLoRA 相对于其他 LoRA 变体具有更高的灵活性，在转移学习任务中表现出卓越的性能，尤其在极低参数的情况下表现出色。

Mar, 2024

SuryaKiran 参加 MEDIQA-Sum 2023: 利用 LoRA 进行临床对话摘要

本文介绍了一种名为 “Low Rank Adaptation” 的 PEFT 方法，并在临床对话摘要任务中展示了其评估结果，这种方法与端到端的调优效果相当。

Jul, 2023

ALoRA: 为大型语言模型调整低秩适应

通过 AB-LoRA 方法，逐步修剪过多和负面影响的 LoRA 排名，并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块，实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明，ALoRA 方法在可调参数相当的情况下优于最近的基准模型。

Mar, 2024

一种论述感知的长文本抽象摘要关注模型

本文提出了一种针对单个较长文档（如研究论文）进行抽象概括的模型，采用新的分层编码器对文章进行语篇结构建模，并运用有意识的编码器生成摘要，实验证明该模型显著优于现有模型。

Apr, 2018

RSTGen: 为长文本生成器注入细粒度可解释控制

本文提出了一种基于修辞结构理论（RST）的框架 RSTGen 来控制生成的长文本的话语结构、语义和主题，应用于论证生成和故事生成等挑战性任务，评估结果表明我们的模型在人工评估相关度方面表现优异同时具有更多控制生成文本的优势。

May, 2022

使用预训练语言模型在低资源环境下进行长文档摘要

本文探讨如何在低资源情况下，使用深度神经网络等技术进行长篇法律文件的自动摘要，本文提出了一种基于 GPT-2 的算法，基于语言模型的困惑度，识别出最具有表现力的句子，在提取摘要时提供有效支持，并且该方法胜过了全球其他对手的显著度检测基线。

Mar, 2021

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称 LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。

Jun, 2021