法律词向量评估数据集:以中国律法典籍为案例研究
本研究使用三种模型,分别基于向量空间表示法,将法律案例文档表示为不同的向量空间,并结合语义词度量和自然语言处理技术,展示了在信息检索过程中引入领域特定语义相似性测量的必要性,表明整合多种技术可显著提高信息检索的准确性,同时还展示了词相似度测量分布变化及文档向量维度变化对法律信息检索过程的影响,从而为信息检索提供了更好的方案。
May, 2018
本研究介绍了一个含有近 10K 文档和近 50K 个问题及其答案的中国司法阅读理解 (CJRC) 数据集,基于 Bert 和 BiDAF 构建了两个强基准模型,实验结果显示与人工标注员的表现相比仍有进步的空间。该数据集可用于司法领域中元素提取的机器阅读理解技术研究。
Dec, 2019
我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力,我们将法学硕士的法律能力分为三个层次:基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估,主要关注基本法律自然语言处理能力。评估结果显示,尽管一些法学硕士在性能上优于它们的基础模型,但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。
Oct, 2023
本文旨在解决 AILA2021(法律协助人工智能)中的任务之一,在使用 BERT 获取的句子嵌入和线性分类器的结合下,将文档在语义上分割为 7 个预定义标签或 “修辞角色”,通过对实验加权分析,表明赋予最高频率类别更大的权重可获得更好的结果。在任务 1 中,团队 legalNLP 获得了 0.22 的 F1 分数。
Feb, 2022
本文提出了一个通用框架,用于支持使用单词嵌入进行跨语料库的语言研究,其中可以比较从不同语料库生成的嵌入项,以找出语料库之间的含义对应和差异。该框架的核心组件是 CADE,重点解决了从不同语料库生成的嵌入项的对齐问题。经过实验,结果表明 CADE 在时间词嵌入,语言本地化和主题分析等各个领域都达到了最先进或更优异的性能。
Apr, 2020
本文介绍了基于 37,604 篇开放获取的社会科学研究论文构建和评估词向量模型。在评估中,我们比较了特定领域和通用语言模型在语言覆盖、多样性和语义关系方面的差异。我们发现,即使词汇表的大小相对较小,所创建的特定领域模型覆盖了社会科学概念的大部分,与更通用的模型相比,邻域更加多样化。在所有关系类型中,我们发现更广泛的语义关系覆盖范围。
Feb, 2023
通过在中国法律领域构建超过 100 万个查询的数据集,并实现数据筛选和处理流程以确保其多样性和质量,我们介绍了 InternLM-Law,这是一个专门为回答与中国法律相关的各种法律问题而量身定制的大型语言模型。我们的训练方法涉及一种新颖的两阶段过程:首先在法律特定和通用内容上对 LLM 进行微调,以使模型具备广泛知识,然后在高质量的法律数据上进行独家微调以增强结构化输出生成能力。InternLM-Law 在 LawBench 上的平均表现最高,在 20 个子任务中有 13 个超过了包括 GPT-4 在内的最先进模型。我们公开提供 InternLM-Law 和我们的数据集,以促进将 LLM 应用于法律领域的未来研究。
Jun, 2024
智能法律系统中的重要组成部分,法律案例检索在确保司法公正和公平方面起着关键作用。为了解决现有数据集中的三个问题,本研究介绍了一个大规模的法律案例检索数据集 LeCaRDv2,并丰富了现有的相关性标准,同时提出了一个有效识别潜在候选项的候选集合策略。在 LeCaRDv2 上评估了多个检索模型,表明法律案例检索仍有很大的改进空间。
Oct, 2023