综合评估工具箱：陪审团

Oct, 2023

Jury: A Comprehensive Evaluation Toolkit

Devrim Cavusoglu, Ulas Sert, Secil Sen, Sinan Altinuc

TL;DR评估在深度学习中扮演关键角色，本文介绍了一种名为 jury 的工具包，旨在为不同任务和度量提供统一的评估框架，标准化和改进系统的指标评估，以帮助研究人员克服评估中的各种挑战。

Abstract

evaluation plays a critical role in deep learning as a fundamental block of any prediction-based system. However, the vast number of Natural Language Processing (NLP) tasks and the development of various

evaluation deep learning natural language processing metrics jury

发现论文，激发创造

论法律判决预测：数据集、评估指标、模型与挑战

该论文通过分析 31 个 LJP 数据集、总结 14 个数据评估指标、回顾 12 个预训练模型以及挑选 8 个代表性数据集呈现状态，以帮助读者了解 LJP 的现状并促进 NLP 研究和法律专业人士的进一步合作。

Apr, 2022

陪审学习：将异议声纳入机器学习模型中

本文提出通过采用陪审团的隐喻来确立不同的人群在机器学习算法中的权威性，设计了一个可以模拟数据标记者的深度学习结构，在解决标签不一致性的过程中具有更灵活的适应性和探索性。

Feb, 2022

评判评判者：针对在线评论生成的神经语言模型的大规模评估研究

本文研究自然语言生成的评估方法，并通过自动化评估和人工评估的比较，发现词汇重叠是自然语言生成的较好评估指标，而人工评估与自动化评估在排名上存在较大差异，因此呼吁重新考虑自然语言生成的评估目标。

Jan, 2019

最佳系统是什么？自然语言处理基准测试的新视角

该研究提出一种新的基于社会选择理论的系统排名方法，用于评估机器学习中使用 benchmark 的效果。该方法在评估自然语言处理中的预训练模型时更为可靠且稳健，有别于简单的平均聚合，可为实际应用提供最佳的系统选择。

Feb, 2022

SimuCourt: 构建带有现实世界判决文书的司法决策代理

利用深度学习和自然语言处理技术，本研究构建了一个涵盖实际法律案件的司法基准，引入了司法决策任务，并提出了一个新颖的多智能体框架，通过对真实判决文档的模拟辩论、法律信息检索和判决改进，模拟法官的决策过程，实验结果表明该框架在生成法律依据方面具有显著改进。

Mar, 2024

对法律判决预测的大型语言模型的全面评估

研究了大型语言模型在法律领域的应用，通过设计基于大型语言模型的实用基准解决方案，并在法律判决预测任务上测试，发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要，同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合，从而使大型语言模型的角色变得多余。

Oct, 2023

真实法庭环境下的多阶段案件表征学习法律判决预测

本研究通过多任务学习将案件中的原告索赔、法庭辩论数据进行全面理解，以更准确地预测司法裁决。实验结果表明，该模型相较于强有力的基线算法，具备更好的判决质量和效率，被真实法官和法学生用于实践并证明其具有更好普适性和解释性。

Jul, 2021

对抗性鲁棒神经法律判断系统

提出了一种增强早期现有法律判决预测系统鲁棒性的方法，并在三个法律数据集上进行了广泛实验，结果显示我们的方法在处理对抗性攻击方面明显优于最先进的法律判决预测系统。据我们所知，我们是第一个提高早期现有法律判决预测系统鲁棒性的研究。

Jul, 2023

法庭表现：自动化处理和可视化法国上诉法院判决

本文介绍了利用人工智能技术，从司法判决中提取法律指标，通过构建律师和判决的网络图和排名律师的指标来缩小信息不对称和提高公正性，同时还探讨了基于社区特征来表示案件困难程度的度量方式。

Jun, 2020

英文下的神经网络法律判决预测

本文发布了一个新的英文司法判决预测数据集，通过使用各种神经模型对该数据集进行评估，建立了强大的基准线，并探索了模型是否会受到人口统计信息的偏见影响。作为一个附带产品，我们提出了 BERT 的分层版本，绕过 BERT 的长度限制。

Jun, 2019