LiMe:晚期中世纪刑事句子的拉丁语语料库
本文介绍了一个 Hindi Legal Documents Corpus (HLDC) 的语料库,它包含了超过 900K 的清理和结构化的印地语法律文件。通过使用该语料库,我们引入了保释预测的任务,并使用了多任务学习(MTL)模型作为主要任务,用作概括任务的辅助任务。最后,我们释放了此论文的语料库和模型实现代码。
Apr, 2022
描述了 IMPACT-es 历史西班牙语语料库和相应词汇表,其中包括 8 百万个单词和 1 万多个单词和他们在文件中的各种变体的链接。介绍了基于文本编码倡议的标准和标注标准,并说明了利用统计机器翻译技术推断概率上下文敏感规则的应用。
Jun, 2013
本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile,用于培训各种 NLP 模型,使用 RoBERTa 和 Longformer 等预训练模型性能优越,在 LEXTREME 上取得新的 SotA,我们在 LexGLUE 的英语和多语言模型上进行了评估,发布了数据集、训练模型和所有代码。
Jun, 2023
本文介绍一种用于处理法律文档的语料库以及基于该语料库训练的模型,可自动预测法律文档中的修辞角色,进而提高摘要和法律判决预测的性能,并在本文中发布了此语料库和基线模型代码。
Jan, 2022
介绍了剑桥法律语料库(CLC),这是一个用于法律人工智能研究的语料库。该语料库包括超过 25 万个来自英国的法庭判例,涵盖了从 16 世纪至 21 世纪的案件。该论文介绍了该语料库的第一个版本,并提供 638 个案例的案件结果注释,以作为使用 GPT-3、GPT-4 和 RoBERTa 模型进行案件结果提取的基准。该论文还包括了广泛的法律和伦理讨论,以解决这一材料可能具有的敏感性。因此,该语料库仅在特定限制下释放供研究目的使用。
Sep, 2023
通过对句子级别的语义分类使用深度学习方法进行评估,以加速人文学科和语言学领域的语料库构建过程,我们介绍了一个包含各种类型的句子(医学,情色等)的新型语料库,跨度从公元前 300 年到公元 900 年。我们评估了不同的句子分类方法和不同的输入嵌入层,并表明所有方法都一致优于简单的基于标记的搜索。我们探索了个体方言和社会方言的元数据嵌入(世纪,作者,文体)的整合,但发现这会导致过拟合。我们的结果表明了这种方法的有效性,使用 HAN 实现了高精度和真正阳性率(TPR)分别为 70.60%和 86.33%。我们评估了数据集大小对模型性能(2013 个句子降为 420 个句子)的影响,并证明了即使没有 MLM,我们的模型仍然具有足够高的精度和 TPR,分别为 69%和 51%。基于这个结果,我们提供了对注意力机制的分析作为对人文学者的支持附加价值,以产生更多的数据。
Sep, 2023
本文介绍了 LOME 系统,用于执行多语言信息提取,通过 FrameNet 解析器标识文本实体和事件提及的跨度,执行指代消解、细粒度实体类型和事件之间的时间关系预测,构建事件和实体关注的知识图谱。LOME 可用作 Docker 容器和网络演示。
Jan, 2021
本文提出了一种基于语言模型和机器学习方法,结合多种词汇和形态特征,用于解决法律问题和提供正确答案的 Legal Information Extraction/Entailment 问题,且无需大量训练数据和专业知识即可与最先进的法律信息检索和问题回答方式相竞争,并在比赛中获得了显著成果。
Sep, 2016
我们提出了 MLSUM,这是第一个大规模的多语言摘要数据集,包括五种不同语言的 150 万篇文章 / 摘要对,与来自 CNN / Daily mail 数据集的英文报纸一起,构成一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析,发现了现有偏见,这促使我们使用多语言数据集。
Apr, 2020