LEVEN: 一个大规模的中文法律事件检测数据集
智能法律系统中的重要组成部分,法律案例检索在确保司法公正和公平方面起着关键作用。为了解决现有数据集中的三个问题,本研究介绍了一个大规模的法律案例检索数据集 LeCaRDv2,并丰富了现有的相关性标准,同时提出了一个有效识别潜在候选项的候选集合策略。在 LeCaRDv2 上评估了多个检索模型,表明法律案例检索仍有很大的改进空间。
Oct, 2023
在法律领域中,元素提取作为自然语言处理的重要任务之一,从司法文件中提取法律要素有助于增强对法律案例的解释和分析能力,进而促进法律领域各个方面的下游应用。通过引入一个更全面、大规模的刑事法律要素提取数据集,本研究解决了现有数据集的限制问题,该数据集由 15831 个司法文件和 159 个标签组成,并通过专家设计的标签系统和注释准则进行构建。LEEC 数据集是目前为中国法律系统最广泛且专业的法律要素提取数据集,利用标注的数据,我们运用各种最先进的模型验证了 LEEC 在文档事件提取任务中的适用性。
Oct, 2023
构建了一个新的真实世界事件去噪数据集,并提出了一种基于同质双事件的去噪框架,用于捕捉与原始信号相关的事件信息并分离噪声,实现准确的去噪。
May, 2024
本文提供了一个大规模句子级别数据集,对开放式事件抽取进行基准测试,其中包含来自中国网页的 34000 多个新闻标题,为当前事件抽取问题上的高级研究提供了重要的依据。
Nov, 2022
本研究提出了一种包含 4480 份维基百科文件、118732 次事件提及实例和 168 种事件类型的 MAVEN 数据集,用于缓解数据不足和低覆盖率等问题,实证分析了通用领域事件检测中的进一步研究方向,并表明现有的事件检测方法不能像小规模数据集中表现出的那样在 MAVEN 上表现出色,说明其在现实世界中仍然是具有挑战性的任务,需要进一步的研究和努力。
Apr, 2020
本文介绍了 CAIL2018 挑战数据集,以及其中包含的中国法律判例数据,分析了现有文本分类方法在预测判决结果方面的挑战,特别是在刑期上的预测还有待改进。
Jul, 2018
本文介绍 Life Event Dialog 数据集,并提出了基于对话数据的新型对话生活事件提取任务,对前沿的三种信息抽取方法(OpenIE、关系抽取和事件抽取)的表现进行了综合实证分析,说明目前的事件抽取模型仍然难以从人类日常对话中提取生活事件。希望我们提出的 Life Event Dialog 数据集和深入分析的信息抽取框架能够为未来的对话生活事件提取研究提供帮助。
Apr, 2023
利用机械臂轨迹追踪技术,构建了一个室内外真实场景的大规模事件图像数据集,提出了一种基于事件引导的适用于真实低光场景的图像增强方法 EvLight,通过多尺度整体融合分支和信噪比引导的区域特征选择策略,显著超越了基于帧的方法。
Apr, 2024
本论文提供了一个实用的通用事件检测数据集 GLEN,它使用了现有注释的 PropBank 作为远程监督,提出了一个新的多阶段事件检测模型,能够有效处理大本体大小和标签噪声问题,并在性能上表现出优越性。
Mar, 2023
提取军事文本中的结构化事件知识,包括事件触发器和相应的参数,对于许多应用非常重要,如情报分析和决策辅助。本研究提出了 CMNEE,一个大规模的、以文件级别为单位的开源中国军事新闻事件提取数据集,包含 17,000 个文档和 29,223 个事件,这些事件均按照事先定义的军事领域模式进行手动注释,包括 8 种事件类型和 11 种参数角色类型。与其他领域数据集相比,对 CMNEE 的实验结果明显不理想,这表明军事领域的事件提取面临独特挑战,需要进一步的研究努力。可从此 https URL 获取我们的代码和数据。
Apr, 2024