HLDC: 印地語法律文件語料庫

ACLApr, 2022

HLDC: Hindi Legal Documents Corpus

Arnav Kapoor, Mudit Dhawan, Anmol Goel, T.H. Arjun, Akshala Bhatnagar...

TL;DR本文介绍了一个 Hindi Legal Documents Corpus (HLDC) 的语料库，它包含了超过 900K 的清理和结构化的印地语法律文件。通过使用该语料库，我们引入了保释预测的任务，并使用了多任务学习（MTL）模型作为主要任务，用作概括任务的辅助任务。最后，我们释放了此论文的语料库和模型实现代码。

Abstract

Many populous countries including India are burdened with a considerable backlog of legal cases. Development of automated systems that could process legal documents and augment legal practitioners can mitigate th

legal documents automated systems hindi corpus bail prediction

发现论文，激发创造

用于自动化结构化法律文件的语料库

本文介绍一种用于处理法律文档的语料库以及基于该语料库训练的模型，可自动预测法律文档中的修辞角色，进而提高摘要和法律判决预测的性能，并在本文中发布了此语料库和基线模型代码。

Jan, 2022

利用上下文化大语言模型理解法律文件

针对印度等人口密集的国家法律案件增长的问题，本论文提出了解决该问题的有效技术 ——SemEval-2023 任务 6：理解法律文本的系统，该系统利用 Legal-BERT-HSLN 模型和 Legal-LUKE 模型预测法律文件的修辞角色和识别法律实体，并表明模型优于基线模型，在领先的任务排行榜中取得显著成绩。

Mar, 2023

ILDC for CJPE: 用于法院判决预测和解释的印度法律文件语料库

介绍了一个自动化系统 ILDC，该系统是印度最高法院案例的大型语料库，用于预测案件结果。该任务要求自动化系统预测出可解释的结果，通过基线模型和分层遮挡模型实验表明该任务的复杂性。

May, 2021

MILDSum：用于印度法律案例判决的多语言摘要的新型基准数据集

印度司法体系中，针对印度语言的法律文件进行自动摘要是一个重要的问题，本研究以英语为源语言，尝试将印度的法律文件进行跨语言的英汉自动摘要。研究使用了 3122 例高质量的印度法院的判决案件，并展示了在法律领域跨语言摘要研究的必要性。

Oct, 2023

剑桥法律语料库：法律人工智能研究的语料库

介绍了剑桥法律语料库（CLC），这是一个用于法律人工智能研究的语料库。该语料库包括超过 25 万个来自英国的法庭判例，涵盖了从 16 世纪至 21 世纪的案件。该论文介绍了该语料库的第一个版本，并提供 638 个案例的案件结果注释，以作为使用 GPT-3、GPT-4 和 RoBERTa 模型进行案件结果提取的基准。该论文还包括了广泛的法律和伦理讨论，以解决这一材料可能具有的敏感性。因此，该语料库仅在特定限制下释放供研究目的使用。

Sep, 2023

提高印度人民的司法准入：评估法律文本翻译成印度语言的基准

印度司法体系的大部分法律文本由于历史原因以复杂的英语编写而成，然而只有约 10% 的印度人能够阅读英语，因此需要将法律文本转化成各种印度语言，考虑到可用的英文法律文本的翻译。虽然对于印度语言之间的翻译已经有了很多研究，但据我们所知，在法律领域中对于这种翻译的先前工作并不多。在本研究中，我们构建了第一个高质量的法律平行语料库，其中包含了英语和九种印度语言的对齐文本单元，包括一些资源稀缺的语言。我们还对该语料库上的各种机器翻译系统进行了性能评估，其中包括商业机器翻译系统、开源机器翻译系统和大型语言模型。通过对法律从业人员的全面调查，我们了解了他们对其中一些机器翻译系统的满意度，并比较了自动机器翻译评估指标与法律从业人员意见之间的一致性。

Oct, 2023

为印度语言建立一个多语言平行语料收集的努力

通过基于深度学习的方法使用机器翻译和跨语言检索工具，我们提供了涵盖 10 种印度语言的句子对齐平行语料库，包括低资源语言，此外还提供了独立测试语料库用于验证 10 种印度语言的性能。

Jul, 2020

MultiLegalPile: 一个拥有 689GB 的多语言法律文本库

本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile，用于培训各种 NLP 模型，使用 RoBERTa 和 Longformer 等预训练模型性能优越，在 LEXTREME 上取得新的 SotA，我们在 LexGLUE 的英语和多语言模型上进行了评估，发布了数据集、训练模型和所有代码。

Jun, 2023

L3Cube-MahaNews：马拉地语基于新闻的短文本和长文档分类数据集

我们介绍了 L3Cube-MahaNews，这是一个关注新闻标题和文章的最大的监督式马拉地语文本分类语料库，包含超过 1.05L 条记录，分为 12 个不同类别的多样性范围。我们提供了使用最先进的预训练 BERT 模型在这些数据集上的详细统计数据和基线结果。在各个数据集上，单一语言的 MahaBERT 模型的性能都优于其他模型。这些资源也可用作马拉地语主题分类数据集或模型，并可在此 https URL 中公开获取。

Apr, 2024

机器翻译中印度语言的低资源状态再探讨

本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架，其中包括基线 NMT 系统，检索模块和用于公共网站的对齐模块，通过迭代增加语料库来改进系统。我们的工作还评估了设计选择，例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比，本工作不仅提供了自动化框架，还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。

Aug, 2020