BillSum:美国立法的自动摘要语料库
使用唯一向量空间嵌入法比较不同机构之间的政策差异,发现各机构之间存在有意义的差异,并使用文法向量回答具体问题,正在扩展为更综合的法律语义地图。
Sep, 2016
该研究主要通过使用超过100万份法案的词汇内容和上下文引导来构建预测模型,探究了影响美国50个州和华盛顿特区立法成功的因素,并展示了这些信号的互补预测能力。
Jun, 2018
本文提出了使用会议摘要生成自动转录报告的方法。使用自动预对齐方法使数据批量化对齐,最大化语料库的规模,以及使用人工标注者进行更准确地校对。作者还评估了自动对齐和自动摘要的表现,并证明自动对齐可大幅度提高所有 ROUGE 得分。
Jul, 2020
该研究提出了DebateSum数据集,其中包含187,386个唯一的证据片段和相应的争论和抽取式摘要,使用多个Transformer摘要模型进行了训练,同时引入了在数据集上训练的FastText词向量debate2vec。最后,该研究还提出了一个可以广泛运用于全国演讲和辩论协会成员中的DebateSum搜索引擎。
Nov, 2020
本文探讨如何在低资源情况下,使用深度神经网络等技术进行长篇法律文件的自动摘要,本文提出了一种基于 GPT-2 的算法,基于语言模型的困惑度,识别出最具有表现力的句子,在提取摘要时提供有效支持,并且该方法胜过了全球其他对手的显著度检测基线。
Mar, 2021
本文介绍一个使用 BERT 变体和多阶段训练来预测法案相似性的方法,发现在使用人类标注和合成数据进行训练时,预测性能显著提高,并成功捕捉了各种层次的法律文件之间的相似性。
Sep, 2021
DeepParliament是一份涵盖自1986年至今的议案文件和元数据、执行各种议案状态分类任务的法律领域基准数据集,其中提供了更完整的议会法案内容信息。该文提供数据收集、详细统计和分析,并提供了二进制和多类议案状态分类的新基准模型,该模型可用于协助议员、总统和法律从业者审查或优先处理议案,提高决策的质量和减少时间消耗。该工作将首次呈现议会法案预测任务,并公开了代码和数据集,以提高法律AI资源的可访问性和促进可重现性。
Nov, 2022
本研究基于一个标注过的含430K篇美国案例的数据集,使用强化学习算法构建了MemSum模型,在自动摘要质量评测中表现最佳,甚至胜过了基于transformer的模型。同时,人工评测也证明MemSum的摘要能够有效捕捉到庞大而冗长的法律案例的关键点。鉴于这些结果,我们将模型开源,旨在推动法律民主化进程,提高公众获取美国法律案例的能力。
May, 2023
最近深度学习的进展,特别是编码器-解码器架构的发明,极大地改进了抽象摘要系统的性能。大部分研究集中在书面文件上,然而忽视了多方对话摘要的问题。本文提供了一组法国政治辩论的数据集,以增强多语对话摘要资源。我们的数据集包括手工转录和注释的政治辩论,涵盖一系列主题和观点。我们强调高质量的转录和注释对于训练准确有效的对话摘要模型的重要性,并强调支持非英语语言的对话摘要所需的多语资源。我们还使用最先进的方法提供了基准实验,并鼓励在这一领域进行进一步研究。我们的数据集将向研究社区公开提供。
Dec, 2023