LiMe：晚期中世纪刑事句子的拉丁语语料库

COLINGApr, 2024

LiMe：晚期中世纪刑事句子的拉丁语语料库

LiMe: a Latin Corpus of Late Medieval Criminal Sentences

Alessandra Bassani, Beatrice Del Bo, Alfio Ferrara, Marta Mangini, Sergio Picascia...

TL;DR该论文介绍了 LiMe 数据集，这是一个由专家进行详细注解的 325 份文档的语料库，用于掩码语言模型和监督式自然语言处理任务。

Abstract

The latin language has received attention from the computational linguistics research community, which has built, over the years, several valuable →

latin language computational linguistics resources annotated corpora language models

发现论文，激发创造

HLDC: 印地語法律文件語料庫

本文介绍了一个 Hindi Legal Documents Corpus (HLDC) 的语料库，它包含了超过 900K 的清理和结构化的印地语法律文件。通过使用该语料库，我们引入了保释预测的任务，并使用了多任务学习（MTL）模型作为主要任务，用作概括任务的辅助任务。最后，我们释放了此论文的语料库和模型实现代码。

Apr, 2022

历史西班牙语开放式历时语料库：标注标准和自动化拼写现代化

描述了 IMPACT-es 历史西班牙语语料库和相应词汇表，其中包括 8 百万个单词和 1 万多个单词和他们在文件中的各种变体的链接。介绍了基于文本编码倡议的标准和标注标准，并说明了利用统计机器翻译技术推断概率上下文敏感规则的应用。

Jun, 2013

MultiLegalPile: 一个拥有 689GB 的多语言法律文本库

本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile，用于培训各种 NLP 模型，使用 RoBERTa 和 Longformer 等预训练模型性能优越，在 LEXTREME 上取得新的 SotA，我们在 LexGLUE 的英语和多语言模型上进行了评估，发布了数据集、训练模型和所有代码。

Jun, 2023

用于自动化结构化法律文件的语料库

本文介绍一种用于处理法律文档的语料库以及基于该语料库训练的模型，可自动预测法律文档中的修辞角色，进而提高摘要和法律判决预测的性能，并在本文中发布了此语料库和基线模型代码。

Jan, 2022

剑桥法律语料库：法律人工智能研究的语料库

介绍了剑桥法律语料库（CLC），这是一个用于法律人工智能研究的语料库。该语料库包括超过 25 万个来自英国的法庭判例，涵盖了从 16 世纪至 21 世纪的案件。该论文介绍了该语料库的第一个版本，并提供 638 个案例的案件结果注释，以作为使用 GPT-3、GPT-4 和 RoBERTa 模型进行案件结果提取的基准。该论文还包括了广泛的法律和伦理讨论，以解决这一材料可能具有的敏感性。因此，该语料库仅在特定限制下释放供研究目的使用。

Sep, 2023

在第一千年拉丁文本中以句子级别检测性内容

通过对句子级别的语义分类使用深度学习方法进行评估，以加速人文学科和语言学领域的语料库构建过程，我们介绍了一个包含各种类型的句子（医学，情色等）的新型语料库，跨度从公元前 300 年到公元 900 年。我们评估了不同的句子分类方法和不同的输入嵌入层，并表明所有方法都一致优于简单的基于标记的搜索。我们探索了个体方言和社会方言的元数据嵌入（世纪，作者，文体）的整合，但发现这会导致过拟合。我们的结果表明了这种方法的有效性，使用 HAN 实现了高精度和真正阳性率（TPR）分别为 70.60％和 86.33％。我们评估了数据集大小对模型性能（2013 个句子降为 420 个句子）的影响，并证明了即使没有 MLM，我们的模型仍然具有足够高的精度和 TPR，分别为 69％和 51％。基于这个结果，我们提供了对注意力机制的分析作为对人文学者的支持附加价值，以产生更多的数据。

Sep, 2023

大型本体多语言提取

本文介绍了 LOME 系统，用于执行多语言信息提取，通过 FrameNet 解析器标识文本实体和事件提及的跨度，执行指代消解、细粒度实体类型和事件之间的时间关系预测，构建事件和实体关注的知识图谱。LOME 可用作 Docker 容器和网络演示。

Jan, 2021

法律文本分析的词汇 - 形态学建模

本文提出了一种基于语言模型和机器学习方法，结合多种词汇和形态特征，用于解决法律问题和提供正确答案的 Legal Information Extraction/Entailment 问题，且无需大量训练数据和专业知识即可与最先进的法律信息检索和问题回答方式相竞争，并在比赛中获得了显著成果。

Sep, 2016

使用开源代码训练大型语言模型的（滥）用

本研究探讨使用未经授权的代码构建 LLMs 所带来的安全、隐私和版权问题，并提出了四条可行的建议。

Feb, 2023

MLSUM: 多语言摘要语料库

我们提出了 MLSUM，这是第一个大规模的多语言摘要数据集，包括五种不同语言的 150 万篇文章 / 摘要对，与来自 CNN / Daily mail 数据集的英文报纸一起，构成一个大规模的多语言数据集，可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析，发现了现有偏见，这促使我们使用多语言数据集。

Apr, 2020