BillSum：美国立法的自动摘要语料库

Oct, 2019

BillSum：美国立法的自动摘要语料库

BillSum: A Corpus for Automatic Summarization of US Legislation

Anastassia Kornilova, Vlad Eidelman

TL;DR本文针对美国国会和加州州政府发布的众多议案进行了研究，推出了第一个用于议案自动摘要的数据集-- BillSum。文章介绍了该数据集的属性，对比了不同的提取方法，并证明了基于国会议案的模型能够应用于对加州议案的自动摘要。

Abstract

automatic summarization methods have been studied on a variety of domains, including news and scientific articles. Yet, legislation has not previously been considered for this task, despite US Congress and state

发现论文，激发创造

Gov2Vec: 学习机构及其法律文本的分布式表示

使用唯一向量空间嵌入法比较不同机构之间的政策差异，发现各机构之间存在有意义的差异，并使用文法向量回答具体问题，正在扩展为更综合的法律语义地图。

Sep, 2016

利用词汇和上下文信息预测州立法行动的可预测性

该研究主要通过使用超过100万份法案的词汇内容和上下文引导来构建预测模型，探究了影响美国50个州和华盛顿特区立法成功的因素，并展示了这些信号的互补预测能力。

Jun, 2018

自动对齐方法用于摘要语料库构建

本文提出了使用会议摘要生成自动转录报告的方法。使用自动预对齐方法使数据批量化对齐，最大化语料库的规模，以及使用人工标注者进行更准确地校对。作者还评估了自动对齐和自动摘要的表现，并证明自动对齐可大幅度提高所有 ROUGE 得分。

Jul, 2020

DebateSum：一个大规模的辩论挖掘和摘要数据集

该研究提出了DebateSum数据集，其中包含187,386个唯一的证据片段和相应的争论和抽取式摘要，使用多个Transformer摘要模型进行了训练，同时引入了在数据集上训练的FastText词向量debate2vec。最后，该研究还提出了一个可以广泛运用于全国演讲和辩论协会成员中的DebateSum搜索引擎。

Nov, 2020

使用预训练语言模型在低资源环境下进行长文档摘要

本文探讨如何在低资源情况下，使用深度神经网络等技术进行长篇法律文件的自动摘要，本文提出了一种基于 GPT-2 的算法，基于语言模型的困惑度，识别出最具有表现力的句子，在提取摘要时提供有效支持，并且该方法胜过了全球其他对手的显著度检测基线。

Mar, 2021

使用已注释和增强的议案语料库学习议案相似度

本文介绍一个使用 BERT 变体和多阶段训练来预测法案相似性的方法，发现在使用人类标注和合成数据进行训练时，预测性能显著提高，并成功捕捉了各种层次的法律文件之间的相似性。

Sep, 2021

长文本摘要中，内容和预算决策的分解

通过将自动生成摘要的过程拆分成两个步骤，然后根据预算和内容指南将这些步骤组合成最终摘要，从而提高了长文档摘要的性能，并实现了域自适应。

May, 2022

DeepParliament：议会法案预测的法律领域基准和数据集

DeepParliament是一份涵盖自1986年至今的议案文件和元数据、执行各种议案状态分类任务的法律领域基准数据集，其中提供了更完整的议会法案内容信息。该文提供数据收集、详细统计和分析，并提供了二进制和多类议案状态分类的新基准模型，该模型可用于协助议员、总统和法律从业者审查或优先处理议案，提高决策的质量和减少时间消耗。该工作将首次呈现议会法案预测任务，并公开了代码和数据集，以提高法律AI资源的可访问性和促进可重现性。

Nov, 2022

美国法院裁决的法律摘要提取

本研究基于一个标注过的含430K篇美国案例的数据集，使用强化学习算法构建了MemSum模型，在自动摘要质量评测中表现最佳，甚至胜过了基于transformer的模型。同时，人工评测也证明MemSum的摘要能够有效捕捉到庞大而冗长的法律案例的关键点。鉴于这些结果，我们将模型开源，旨在推动法律民主化进程，提高公众获取美国法律案例的能力。

May, 2023

FREDSum: 法国政治辩论的对话摘要语料库

最近深度学习的进展，特别是编码器-解码器架构的发明，极大地改进了抽象摘要系统的性能。大部分研究集中在书面文件上，然而忽视了多方对话摘要的问题。本文提供了一组法国政治辩论的数据集，以增强多语对话摘要资源。我们的数据集包括手工转录和注释的政治辩论，涵盖一系列主题和观点。我们强调高质量的转录和注释对于训练准确有效的对话摘要模型的重要性，并强调支持非英语语言的对话摘要所需的多语资源。我们还使用最先进的方法提供了基准实验，并鼓励在这一领域进行进一步研究。我们的数据集将向研究社区公开提供。

Dec, 2023