Legal-HNet：将法律长上下文标记与哈特利变换混合

Nov, 2023

Legal-HNet：将法律长上下文标记与哈特利变换混合

Legal-HNet: Mixing Legal Long-Context Tokens with Hartley Transform

Daniele Giofré, Sneha Ghantasala

TL;DR在本文中，我们探讨了用简单的记号混合机制 ——Hartley 和 Fourier 变换替代基于注意力的层的替代方法，并在法律领域设置中从头开始训练模型。我们还介绍了一种新的混合 Seq2Seq 架构，即无注意力的编码器与有注意力的解码器相连，该架构在现有的文摘任务中表现出色，并且计算和内存需求更低。我们相信，采用这些更简单的基础设施可以实现与抽象文本摘要任务中的长相关性类似甚至更好的性能。这不仅使更多人能够从头训练模型，而且还有助于减少训练过程中的碳足迹。

Abstract

Since its introduction, the transformers architecture has seen great adoption in NLP applications, but it also has limitations. Although the self-attention mechanism allows for generating very rich representations of the input text, its effectiveness may be limited in specialized domai

transformers architecture self-attention mechanism legal domain hartley and fourier transforms hybrid seq2seq architecture

发现论文，激发创造

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

FNet: 用 Fourier 变换混合 token

通过使用线性混合器代替自注意层，与标准的非线性前馈层一起能够在几个文本分类任务中模拟语义关系。用标准、非参数特定的傅里叶变化替换 Transformer 编码器中的自注意子层在 GLUE 基准测试上取得了 92-97% 的 BERT 模型的准确性，同时在标准 512 输入长度的 GPU 上训练速度提高了 80%，在 TPU 上提高了 70%。在更长的输入长度上，FNet 模型速度极快，在长序列基准测试中，FNet 模型能够匹配最精确模型的准确性，提供更快的模型训练速度。此外，FNet 的内存占用相对较小，在较小的模型尺寸下运行的性能优于 Transformer 模型。

May, 2021

使用预训练变形器处理长法律文件：修改 LegalBERT 和 Longformer

本研究探讨了两个方向来处理长篇的法律文本：一是修改从 LegalBERT 启动的 Longformer 以处理更长的文本，二是修改 LegalBERT 以使用 TF-IDF 表示。结果发现，第一个方法表现最佳，在 LexGLUE 中胜过 LegalBERT 的分层版本；第二个方法计算效率更高，而且仍然优于 TF-IDF 特征的线性 SVM。

Nov, 2022

BudgetLongformer：我们能否以低成本从头开始预训练 SotA 法律语言模型？

通过 Replaced Token Detection 任务提高训练信号量，我们训练了 Longformer 模型来展示使用更少的计算力可以预训练高效的语言模型，并在长文本摘要任务上取得了很好的性能。

Nov, 2022

地标注意力：随机访问变形金刚的无限上下文长度

本论文提出一种新方法，使用地标标记来代表输入的每个块，并通过训练使注意力选择相关块，从而使我们可以访问完整的上下文并保留随机访问灵活性。该方法与专用数据结构和系统的内存层次结构无缝集成，可以处理任意长度的上下文长度。

May, 2023

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

长短时 Masking Transformer: 一种简单而有效的文档级神经机器翻译基线模型

本研究探索了基于上下文感知框架的神经机器翻译系统，研究发现标准 Transformer 自回归属性可以同时带来一致性和误差积累的优势和劣势，因此提出了一种简单的基于长短时记忆的自注意力机制用于捕捉长距离依赖并减少误差传播，在两个公开数据集上验证可以获得较高 BLEU 得分并捕捉语篇现象。

Sep, 2020

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

流形保持变换器用于短 - 长范围编码的有效性

TransJect 是一种保证层间距离保持的编码器模型，通过学习将标记表示转换为具有类似拓扑结构的不同流形，并保持每对标记之间的欧几里德距离，在多个任务中展示了明显的改进。

Oct, 2023

为人工智能和法律领域引入基于 Transformer 的语言模型的秩序

这篇文章给出了 TLM 在法律领域中基于 AI 的问题和任务的系统概述，旨在突出此领域的研究进展，从而理解 Transformer 模型在支持法律流程中的作用、当前的限制和进一步的研究发展机会。

Aug, 2023