利用预训练词组评分模型,采用词汇匹配和摘要方法构建法律案例检索系统
我们通过引入深度神经网络的短语评分框架,将文档进行编码并汇总为连续向量空间的方法来解决法律案件检索任务,同时探索了词汇特征和神经网络生成的潜在特征的结合带来的好处。实验证明,词汇特征和神经网络生成的潜在特征相互补充,提高了检索系统的性能。此外,实验结果表明了案件汇总在不同方面的重要性:使用提供的摘要和执行编码摘要。我们的方法在法律案件检索任务的实验数据集上实现了 65.6% 和 57.6% 的 F1 得分。
Sep, 2023
利用神经网络和传统检索模型,我们参加了 COLIEE-2022 律师案例比赛的任务 1 和任务 2,结果在所有团队中排名第五。实验结果表明,传统的检索模型 BM25 仍然优于神经网络模型。
Apr, 2022
本研究提出了一种基于意图的自动摘要度量,通过在法律文件中注释意图短语,证明了该系统可以被自动化,相比于其他自动化度量如 BLEU,ROUGE-L 等,该度量在人类满意度方面表现更好。
May, 2022
本文总结了团队 SCaLAR 在《SemEval-2024 任务 5:民事诉讼中的法律论证》方面的工作。我们提出了一种简单而又新颖的基于相似度和距离的无监督方法来生成标签,以解决该二元分类任务。此外,我们通过使用 CNN、GRU 和 LSTM 等集成特征和多级融合的 Legal-Bert 嵌入来探索解决法律文本复杂性的问题。为了解决数据集中冗长的法律解释,我们引入了基于 T5 的分段摘要,成功保留了关键信息,提高了模型的性能。我们的无监督系统在开发集上的宏 F1 得分增加了 20 个百分点,在测试集上增加了 10 个百分点,这是一个令人鼓舞的结果,考虑到其简单的架构。
Mar, 2024
本文提出了一种基于语言模型和机器学习方法,结合多种词汇和形态特征,用于解决法律问题和提供正确答案的 Legal Information Extraction/Entailment 问题,且无需大量训练数据和专业知识即可与最先进的法律信息检索和问题回答方式相竞争,并在比赛中获得了显著成果。
Sep, 2016
本文对不同类型的文本摘要模型(如抽取式与生成式模型)在法律文本中的表现进行分析,特别是将最近的基于 transformer 的生成式摘要模型应用于法律文本摘要时,由于法律文档非常长,必须考虑这些模型的限制。同时,本文还提供了在针对法律文档进行摘要系统评估方面的一些有用结论。
Oct, 2022
本研究总结了 2023 年 COLIEE 中冠军团队 THUIR 的方法,其中使用结构感知的预训练语言模型来加强对法律案例的理解,借助启发式预处理和后处理方法减少不相关信息的影响,并利用学习排序的方法来合并具有不同维度的特征,实验证明了该方法的优越性。
May, 2023
本研究提出了一种在法律决策摘要中提取摘要的技术,该技术利用有限的专家注释数据在低资源环境下操作。我们测试了一组使用顺序模型定位相关内容的模型,并利用最大边际相关性来处理冗余以组合摘要。我们还展示了一种隐式方法来帮助培训我们的建议模型生成更多有信息量的摘要。我们的多任务学习模型变体通过将修辞角色识别作为辅助任务来进一步提高摘要器的性能。我们对包含来自美国退伍军人委员会的法律裁决的数据集进行了广泛的实验,并对我们的模型进行了定量和专家排名评估。我们的结果表明,所提出的方法可以实现 ROUGE 得分与与专业提取的摘要相匹配的得分。
Oct, 2022
本文提出了一种基于深度学习的有效自动案例总结系统,该系统利用最先进的自然语言处理技术,提供了监督和无监督方法来生成简洁且相关的冗长法律案例文件的摘要。用户友好的界面允许用户浏览系统的法律案例库,选择所需案例,并选择他们偏好的总结方法。该系统为法律文本的每个小节以及整体生成全面的摘要。该演示简化了法律案例文档分析,可能通过减轻工作量和提高效率从而使法律专业人员受益。未来的工作将集中在改进摘要技术并探索将我们的方法应用于其他类型的法律文本。
Dec, 2023
通过使用无监督的基于图形的排名模型,并使用重新加权算法来利用法律判决文件结构的特性,本研究研究了使用不同方法计算文档结构的影响,结果在加拿大法律案例实验数据集上表明了我们提出的方法优于多个强基线。
Nov, 2022