基于文本规范化的印度法律文本摘要方法

Jun, 2022

基于文本规范化的印度法律文本摘要方法

Indian Legal Text Summarization: A Text Normalisation-based Approach

Satyajit Ghosh, Mousumi Dutta, Tanaya Das

TL;DR该研究提出了一种在印度法律文本中标准化文本的方法，并测试了两种最先进的专业无关模型用于法律文本摘要。通过领域专家的评估和 ROUGE 指标的使用，结果表明所提出的文本标准化方法在专业无关模型中的效果很好。

Abstract

In the indian court system, pending cases have long been a problem. There are more than 4 crore cases outstanding. Manually summarising hundreds of documents is a time-consuming and tedious task for legal stakeho

indian court system pending cases text summarization legal texts domain-independent models

发现论文，激发创造

将领域知识整合到法律案例提取式摘要中

提出了一种基于领域知识的无监督算法 DELSumm 来实现自动化法律文书摘要，该算法在印度最高法院的案例文件上的实验表明，该算法在 ROUGE 分数方面优于多个强基线，包括基于通用算法和专业法律算法，尽管该算法没有监督学习，但胜过了多个训练了数千个文件摘要对的监督式算法模型。

Jun, 2021

应用基于深度学习的方法实现印度语言文章摘要

本文介绍了使用不同的预训练 seq2seq 模型在 ILSUM 2022 数据集上微调的结果，其中使用 PEGASUS 模型得到了最佳的英文结果，使用具有增强数据的 IndicBART 模型得到了最佳的印地语结果，并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了 PEGASUS 模型，使用 ROUGE-1、ROUGE-2 和 ROUGE-4 作为评估度量方法进行了推理成果的评估。

Dec, 2022

预训练抽象模型和 LLMs 在法律案件判决摘要方面的准备程度如何？

本文探讨了使用抽象式摘要模型生成司法判决结果的可行性，通过对印度法院判决结果运用数个领域专用和通用语言模型进行检验，发现在标准摘要质量度量标准中抽象式摘要模型略优于抽取式模型，然而生成的抽象式摘要信息通常不一致或产生幻象，因此，目前介入人员进行检查和校对更为合适。

Jun, 2023

基于深度学习的自动案例摘要系统

本文提出了一种基于深度学习的有效自动案例总结系统，该系统利用最先进的自然语言处理技术，提供了监督和无监督方法来生成简洁且相关的冗长法律案例文件的摘要。用户友好的界面允许用户浏览系统的法律案例库，选择所需案例，并选择他们偏好的总结方法。该系统为法律文本的每个小节以及整体生成全面的摘要。该演示简化了法律案例文档分析，可能通过减轻工作量和提高效率从而使法律专业人员受益。未来的工作将集中在改进摘要技术并探索将我们的方法应用于其他类型的法律文本。

Dec, 2023

法律案件文档摘要：抽取式和提炼式方法及其评估

本文对不同类型的文本摘要模型（如抽取式与生成式模型）在法律文本中的表现进行分析，特别是将最近的基于 transformer 的生成式摘要模型应用于法律文本摘要时，由于法律文档非常长，必须考虑这些模型的限制。同时，本文还提供了在针对法律文档进行摘要系统评估方面的一些有用结论。

Oct, 2022

法律文档摘要评估框架

本研究提出了一种基于意图的自动摘要度量，通过在法律文件中注释意图短语，证明了该系统可以被自动化，相比于其他自动化度量如 BLEU，ROUGE-L 等，该度量在人类满意度方面表现更好。

May, 2022

MILDSum：用于印度法律案例判决的多语言摘要的新型基准数据集

印度司法体系中，针对印度语言的法律文件进行自动摘要是一个重要的问题，本研究以英语为源语言，尝试将印度的法律文件进行跨语言的英汉自动摘要。研究使用了 3122 例高质量的印度法院的判决案件，并展示了在法律领域跨语言摘要研究的必要性。

Oct, 2023

利用自然语言处理实现文本摘要：叙事性文献综述

本文是一篇关于使用自然语言处理技术生成简化版摘要的研究综述，发现基于 transformer 的方法如 BERT 和 PEGASUS 在生成 lay text summarisation 方面相对优秀，并建议采用抽取式和生成式相结合的混合方法，并开发一些新的评估指标以确保 lay summary 更易读。

Mar, 2023

利用上下文化大语言模型理解法律文件

针对印度等人口密集的国家法律案件增长的问题，本论文提出了解决该问题的有效技术 ——SemEval-2023 任务 6：理解法律文本的系统，该系统利用 Legal-BERT-HSLN 模型和 Legal-LUKE 模型预测法律文件的修辞角色和识别法律实体，并表明模型优于基线模型，在领先的任务排行榜中取得显著成绩。

Mar, 2023

使用预训练语言模型在低资源环境下进行长文档摘要

本文探讨如何在低资源情况下，使用深度神经网络等技术进行长篇法律文件的自动摘要，本文提出了一种基于 GPT-2 的算法，基于语言模型的困惑度，识别出最具有表现力的句子，在提取摘要时提供有效支持，并且该方法胜过了全球其他对手的显著度检测基线。

Mar, 2021