透过分裂投票的镜头：探索法律案件结果分类中的分歧、难度和校准

Feb, 2024

透过分裂投票的镜头：探索法律案件结果分类中的分歧、难度和校准

Through the Lens of Split Vote: Exploring Disagreement, Difficulty and Calibration in Legal Case Outcome Classification

Shanshan Xu, T.Y.S.S Santosh, Oana Ichim, Barbara Plank, Matthias Grabmair

TL;DR法律决策中的分裂投票在处理多样化的法律论点和意见时给律师带来困难。了解人类与 AI 系统之间知觉难度的一致性对于建立信任至关重要。然而，现有的 NLP 校准方法重点关注分类器对预测性能的意识，忽视了人类标签变化的固有性。本文探讨了分裂投票作为自然可观察的人类分歧和价值多元主义现象。我们从欧洲人权法院 (ECHR) 收集法官的投票分布，并提出了 SV-ECHR，一个带有分裂投票信息的案件结果分类数据集。我们建立了与分裂投票相关的异议分类体系，并进一步评估了模型和人类之间知觉难度的一致性，以及案件结果分类模型的置信度和人类标定。我们观察到模型与法官投票分布的一致性有限。据我们所知，这是首次系统探索在法律 NLP 中校准人类判断的研究。我们的研究强调了在法律决策任务中测量和提升模型校准，考虑人类标签变化的必要性。

Abstract

In legal decisions, split votes (SV) occur when judges cannot reach a unanimous decision, posing a difficulty for lawyers who must navigate diverse legal arguments and opinions. In high-stakes domains, understand

split votes legal decisions nlp calibration human label variation model calibration

发现论文，激发创造

从不一致到洞察：对案件结果分类中的理据数据集构建进行剖析

法律 NLP 中的案件结果分类不仅需要准确性，还需要可信度和可解释性。我们提出了一个新的数据集 RAVE：欧洲人权法上的理由变异，收集了两位专家在国际人权法领域的评估，发现他们在评估案例事实上存在差异。我们建立了一个两层次的与任务无关的分类系统，并补充了与案例结果分类相关的子类别。我们定量评估了不同分类系统的性能，并发现观点分歧主要源于法律背景的不明确，这在案件结果分类的元数据中是有限的。我们进一步评估了最先进的案件结果分类模型在 RAVE 上的可解释性，并观察到模型与专家之间的一致性有限。总的来说，我们的案例研究揭示了在法律 NLP 中创建基准数据集所涉及的复杂性，重点是确定与案件结果相关的方面。

Oct, 2023

当人类意见不一致时停止度量校准

在深度学习分类器中，通过在人类的多数意见中测量分类器的预测概率，可以评估分类器是否具备判断可信度的能力，尤其是在人类自身存在不同意见的情况下，通过类别频率、排序及熵等统计方法可以得到更为准确的评估。

Oct, 2022

处理意见不合：超越主观标注中的多数派投票

通过研究多注释者模型的功效，我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题，并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外，在我们的方法中，我们证明我们可以估计不确定性，这些不确定性更好地与注释不一致性相关联，而这种模型不确定性特别适用于知道何时不作出预测的部署场景。

Oct, 2021

从集体人类意见中我们能学到自然语言推理数据的什么？

通过 ChaosNLI 数据集，该研究发现人们在 NLI 评估中存在高度的主观性，新颖度极强的数据集会导致现有模型表现不佳，并提出了考虑人类评价的分布的新评估指标。

Oct, 2020

众人的声音都很重要：利用人口统计信息量化注释不一致性

通过提取注释者在五个主观数据集中的选票历史中的不同意标签，并微调语言模型来预测注释者的不同意。结果表明，了解注释者的人口统计信息可以帮助预测不同意见。通过模拟不同的注释者人工人口统计信息，来区分文本内容固有的争议和注释者不同观点之间的分歧，旨在通过一种新颖的分歧预测机制，改进注释流程，实现更高效和包容性的 NLP 系统。

Jan, 2023

SemEval-2023 任务 11 的 iLab：建模分歧还是建模不同观点？

使用现有多任务模型评估并结合模型仿真方法与个体标注者观点来预测个体标注者的不一致性，得出具体少数观点的模型更适用于模型预测。

May, 2023

主观数据的主观众群分歧：通过群体级学习揭示有意义的众人观点

通过使用语言特征和标签分布，我们介绍了一种无监督学习方法 CrowdOpinion，用于将类似项目汇集为更大的标签分布样本，其中涉及人工智能系统的公平性和人工注释者不一致问题的解决。

Jul, 2023

陪审学习：将异议声纳入机器学习模型中

本文提出通过采用陪审团的隐喻来确立不同的人群在机器学习算法中的权威性，设计了一个可以模拟数据标记者的深度学习结构，在解决标签不一致性的过程中具有更灵活的适应性和探索性。

Feb, 2022

ALJP：基于机器学习模型的个人状态案件的阿拉伯语法律判决预测

本篇文章介绍了一个系统，利用深度学习和自然语言处理技术，通过阿拉伯案例脚本来预测判决结果，特别是在监护和婚姻废止案件中。该系统将协助法官和律师提高工作效率和时间效率，减少判决差异，同时帮助诉讼当事人、律师和法学生在庭审前分析任何给定案件的可能结果。实验结果表明，与五种基线方法相比，在监护案件和婚姻废止案件的判决预测中，利用词向量和 TF-IDF 的 SVM 模型和利用 TF-IDF 的 LR 模型分别达到了 88% 和 78% 的最高准确率。此外，利用词向量的 LR 和 SVM 以及利用 TF-IDF 的 BiLSTM 模型在预测监护案件和婚姻废止案件的结果概率方面达到了 88% 和 69% 的最高准确率。

Sep, 2023

视角不一致下的多视图学习

本文介绍了一种基于条件熵准则的多视图学习方法，可以检测视图不一致并过滤影响性能的样本，大大提高了传统多视图学习的性能。

Jun, 2012