综合评估工具箱:陪审团
该论文通过分析 31 个 LJP 数据集、总结 14 个数据评估指标、回顾 12 个预训练模型以及挑选 8 个代表性数据集呈现状态,以帮助读者了解 LJP 的现状并促进 NLP 研究和法律专业人士的进一步合作。
Apr, 2022
本文提出通过采用陪审团的隐喻来确立不同的人群在机器学习算法中的权威性,设计了一个可以模拟数据标记者的深度学习结构,在解决标签不一致性的过程中具有更灵活的适应性和探索性。
Feb, 2022
本文研究自然语言生成的评估方法,并通过自动化评估和人工评估的比较,发现词汇重叠是自然语言生成的较好评估指标,而人工评估与自动化评估在排名上存在较大差异,因此呼吁重新考虑自然语言生成的评估目标。
Jan, 2019
该研究提出一种新的基于社会选择理论的系统排名方法,用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健,有别于简单的平均聚合,可为实际应用提供最佳的系统选择。
Feb, 2022
利用深度学习和自然语言处理技术,本研究构建了一个涵盖实际法律案件的司法基准,引入了司法决策任务,并提出了一个新颖的多智能体框架,通过对真实判决文档的模拟辩论、法律信息检索和判决改进,模拟法官的决策过程,实验结果表明该框架在生成法律依据方面具有显著改进。
Mar, 2024
研究了大型语言模型在法律领域的应用,通过设计基于大型语言模型的实用基准解决方案,并在法律判决预测任务上测试,发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要,同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合,从而使大型语言模型的角色变得多余。
Oct, 2023
本研究通过多任务学习将案件中的原告索赔、法庭辩论数据进行全面理解,以更准确地预测司法裁决。实验结果表明,该模型相较于强有力的基线算法,具备更好的判决质量和效率,被真实法官和法学生用于实践并证明其具有更好普适性和解释性。
Jul, 2021
提出了一种增强早期现有法律判决预测系统鲁棒性的方法,并在三个法律数据集上进行了广泛实验,结果显示我们的方法在处理对抗性攻击方面明显优于最先进的法律判决预测系统。据我们所知,我们是第一个提高早期现有法律判决预测系统鲁棒性的研究。
Jul, 2023
本文介绍了利用人工智能技术,从司法判决中提取法律指标,通过构建律师和判决的网络图和排名律师的指标来缩小信息不对称和提高公正性,同时还探讨了基于社区特征来表示案件困难程度的度量方式。
Jun, 2020
本文发布了一个新的英文司法判决预测数据集,通过使用各种神经模型对该数据集进行评估,建立了强大的基准线,并探索了模型是否会受到人口统计信息的偏见影响。作为一个附带产品,我们提出了 BERT 的分层版本,绕过 BERT 的长度限制。
Jun, 2019