针对法律摘要的论证段落增强
本文提出了一种将论证角色标注集成到摘要生成过程中以捕捉法律文件的论证结构的简单技术。使用预训练的语言模型进行的实验表明,我们提出的方法比强基线表现更好。
Sep, 2022
本文总结了团队 SCaLAR 在《SemEval-2024 任务 5:民事诉讼中的法律论证》方面的工作。我们提出了一种简单而又新颖的基于相似度和距离的无监督方法来生成标签,以解决该二元分类任务。此外,我们通过使用 CNN、GRU 和 LSTM 等集成特征和多级融合的 Legal-Bert 嵌入来探索解决法律文本复杂性的问题。为了解决数据集中冗长的法律解释,我们引入了基于 T5 的分段摘要,成功保留了关键信息,提高了模型的性能。我们的无监督系统在开发集上的宏 F1 得分增加了 20 个百分点,在测试集上增加了 10 个百分点,这是一个令人鼓舞的结果,考虑到其简单的架构。
Mar, 2024
我们提出了一个新颖的法律摘要评估框架,利用 GPT-4 生成一系列覆盖参考摘要中主要观点和信息的问题 - 回答对。然后,根据参考摘要中的问题,利用 GPT-4 生成回答。最后,GPT-4 对参考摘要和生成摘要的回答进行评分,并检验了与人工评分之间的相关性,结果表明这种基于问题回答的 GPT-4 方法可以成为评估摘要质量的有用工具。
Sep, 2023
提出了一种考虑文档的论证结构进行长篇法律意见的抽象概述的简单方法,其中使用论点角色信息生成多个候选摘要,并基于与文档的论证结构的对齐重新排序这些候选项。证明了该方法在长篇法律意见数据集上的有效性,并表现优于一些强基线。
Jun, 2023
本研究提出了一种基于 transformer 网络和结构化文本分割的方法来预测跨越多个段落的连续文本段落的主题连贯性,以更有效地满足用户特定的信息需求,研究结果表明,此方法显著优于基线,并适应法律文件的结构特点。
Dec, 2020
综合研究了一阶段询问大型预训练生成变压器(GPT-3.5-turbo)在法律案件的修辞角色预测任务中的引诱技术,通过零 - 少例、任务说明、文本上下文和问题推理等策略,提出模型性能的改进方案。
Oct, 2023
本文研究了在法律文件中识别多句子共享同一修辞角色标签的跨度分割问题,使用了半马尔可夫条件随机场模型进行标签分类,辅助三种数据增强策略,通过实验证明了该方法在提升跨度级预测度量方面的优点,需要文件中具有多句子跨度。
Feb, 2023
本文提出了一种新的法律文件语料库,标注了 13 个语义连贯性单元标签(称为修辞角色),并使用该语料库进行了深度学习模型,其中包括多任务学习的实验,以自动处理法律文件并将其分成相关信息单元。
Dec, 2021
本文介绍了 ArguGPT 数据集,分析了由大型语言模型生成的英文论述文章的语言学特征,以及用于检测 AIGC 的现有和新型检测器的性能,其中使用的 RoBERTa 检测器在 essay 和 sentence 级别均可达到 90% 以上的准确率。
Apr, 2023