欧盟立法上的大规模多标签文本分类

ACLJun, 2019

欧盟立法上的大规模多标签文本分类

Large-Scale Multi-Label Text Classification on EU Legislation

Ilias Chalkidis, Manos Fergadiotis, Prodromos Malakasiotis, Ion Androutsopoulos

TL;DR该研究在法律领域考虑了大规模多标签文本分类，提出了一个适用于 LMTC、few - 和 zero-shot 学习的新数据集 EURLEX，共包含 57k 个法律文档，注释有～4.3k 个 EUROVOC 标签；实验表明，具有标签注意力的 BIGRU 模型优于当前其他最先进的模型；领域特定的 WORD2VEC 和上下文敏感的 ELMO 嵌入进一步提高了性能；研究人员还发现，只考虑文档中的特定区域就足够了，这使得我们可以规避 BERT 的最大文本长度限制，并使用 fine-tune BERT 在所有情况下获得了最佳结果。

Abstract

We consider large-scale multi-label text classification (LMTC) in the legal domain. We release a new dataset of 57k legislative documents from eurlex, annotated with ~4.3k EUROVOC labels, which is suitable for LM

large-scale multi-label text classification eurlex neural classifiers word2vec bert

发现论文，激发创造

极端多标签法律文本分类：欧盟立法案例研究

本文讨论在法律领域中进行的极端多标签文本分类（XMTC）任务，并发布了一个新的数据集，其中包含 57k 份来自欧洲公共文档数据库 EURLEX 的立法文件，注释了来自多学科词库 EUROVOC 的概念。本文实验了几种神经分类器，表明采用 self-attention 的 BIGRUs 优于目前使用基于标签的注意力的多标签最先进方法。用 BIGRUs 替换 CNN 在基于标签的注意力网络中，从而获得了最佳的整体性能。

May, 2019

合适的模型：法律多标签分类基线的评估

在这项工作中，我们使用两个公共法律数据集 POSTURE50K 和 EURLEX57K，通过改变训练数据量和标签数量，评估了不同的多标签分类方法，结果显示 DistilRoBERTa 和 LegalBERT 在法律多标签分类中表现良好，而 T5 在生成模型中表现相当，并且 CrossEncoder 在提高宏 F1 分数方面具有潜力，尽管计算成本增加。

Jan, 2024

MultiEURLEX -- 用于零样本跨语言转移的多语言和多标签法律文件分类数据集

MULTI-EURLEX 是一个多语言数据集，用于法律文件的主题分类，其中包含 65,000 个欧盟法律，并使用 EUROVOC 分类法进行了注释。在使用该数据集进行零 - shot 跨语言转移时，发现使用单个源语言对多语言预训练模型进行微调会导致多语言语言知识的严重遗忘，并因此表现出较差的零 - shot 转移结果，但是通过部分微调等调整策略可以帮助保留预训练模型的跨语言知识，从而显著提高零 - shot 跨语言转移性能。

Sep, 2021

大规模多标签文本分类的实证研究，包括少量和零样本标签

本研究在多个数据集上评估了多种 Large-scale Multi-label Text Classification 方法，发现基于概率标签树的层次分类方法优于 Label-Wise Attention Networks。另外，结合 Transformer 的方法在两个数据集上实现了优秀的性能，同时提出了一种新的最先进的方法，将 BERT 与 LWANs 相结合。此外，还引入了图形感知注释接近度度量，提出了利用标签层次结构来改进少量和零 - shot 学习的新模型。

Oct, 2020

探索大型语言模型和分层框架用于大规模非结构化法律文件的分类

通过使用多级编码器层次框架（MESc）以及大型语言模型和无监督聚类方法，我们研究了在没有结构注释的情况下，从大型法律文件中预测裁决的问题，并测试了这些方法在法律领域的转移学习能力和效果，我们的方法相较于之前的最先进方法取得了至少 2 个性能指标的增益。

Mar, 2024

复杂文档分类：比较定制解决方案与大型语言模型

寻找最佳的自动分类方法来对一组复杂的法律文件进行分类，研究使用经过微调的大型语言模型是否能够达到定制训练模型的准确性，并确定所需的微调量。

Dec, 2023

利用上下文化大语言模型理解法律文件

针对印度等人口密集的国家法律案件增长的问题，本论文提出了解决该问题的有效技术 ——SemEval-2023 任务 6：理解法律文本的系统，该系统利用 Legal-BERT-HSLN 模型和 Legal-LUKE 模型预测法律文件的修辞角色和识别法律实体，并表明模型优于基线模型，在领先的任务排行榜中取得显著成绩。

Mar, 2023

法律主题分类中实现逼真的零 - shot 跨语言转移

本文讨论使用 MultiEURLEX 数据集进行零样本跨语言转移的法律主题分类，介绍了新版本的数据集和使用基于翻译的方法相对于之前最佳的跨语言预训练模型调参的方法的改进，同时提出了一种基于双语教师 - 学生的零样本转移方法。

Jun, 2022

TnT-LLM：大规模文本挖掘与大型语言模型

利用大规模语言模型 (LLMs)，我们提出了 TnT-LLM 两阶段框架，自动化生成和分配标签，以最小人工工作量构建具有轻量级监督分类器的训练样本，并在 Bing Copilot 上应用此框架来分析用户意图和对话领域，实验结果表明 TnT-LLM 生成了更准确和相关的标签分类法，实现了在大规模分类中准确性和效率之间的有利平衡。

Mar, 2024

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023