Archimedes-AUEB 参与 SemEval-2024 任务 5：LLM 解释民事诉讼程序

May, 2024

Archimedes-AUEB 参与 SemEval-2024 任务 5：LLM 解释民事诉讼程序

Archimedes-AUEB at SemEval-2024 Task 5: LLM explains Civil Procedure

Odysseas S. Chlapanis, Ion Androutsopoulos, Dimitrios Galanis

TL;DR使用强大的 ChatGPT 模型作为教师模型，通过生成解释和合成数据来扩展训练数据集，并利用生成的数据微调一个小型学生模型。与以往的工作不同，我们的解释不是直接来自教师模型的内部知识，而是基于真实人类分析，从而提供出更优的推理信号。还使用一种新的 “变异” 方法生成受现有数据启发的人工数据实例。我们公开发布这些解释作为原始数据集的扩展，以及用于生成两者的提示。我们的系统在 SemEval 比赛中排名第 15 位。它的性能优于自身教师模型，并且能够生成与原始人类分析一致的解释，经过法律专家验证。

Abstract

The semeval task on argument reasoning in civil procedure is challenging in that it requires understanding legal concepts and inferring co

semeval argument reasoning civil procedure large language models synthetic data

发现论文，激发创造

民事诉讼中的法律论证任务

本文介绍了一个新的自然语言处理任务和数据集，基于美国民事诉讼领域，旨在为评估现代法律语言模型提供具有挑战的任务。研究表明，fine-tuning 法律 transformer 模型相对于随机基线模型更有优势，但推理法律论点的实际能力仍是具有挑战性的开放性研究问题。

Nov, 2022

正式辩证推理是否可以提升 LLMs 的性能？

介绍了一种计算论证语义引擎（MQArgEng）和初步研究，评估引入计算论证语义对大型语言模型性能的影响。实验结果表明 MQArgEng 在大部分考察的主题类别中提供了适度的性能提升，呈现出潜力并值得进一步研究。

May, 2024

建模法律推理：人类共识边缘的语言模型注释

使用生成式语言模型对复杂任务进行分类的能力有限，需要进行精细调优，而对法律推理的分类则表明人工注释密集的分类方法仍然具有重要意义。

Oct, 2023

大型语言模型与可解释性法律：一种混合方法

提倡使用 LLMs 来增强基于规则的法律系统的可访问性、使用性和可解释性，为法律技术的民主和利益相关者导向视角做出贡献。发展了一种方法来探索 LLMs 在将规则系统生成的解释从高级编程语言翻译成自然语言上的潜在应用，使所有用户能够快速、清晰和便捷地与这些技术进行交互。研究还进一步建立在这些解释之上，通过使用一系列提示链来赋予非专业人士在自己身上执行复杂的法律任务的能力，用于对相同事实案例应用基于规则的不同推理的自主法律比较。

Nov, 2023

UTSA-NLP 团队参加 SemEval 2024 任务 5：使用 GPT4 进行民事诉讼中的论证推理的提示集成

我们通过使用 GPT4 进行基于提示的解决方案来推理法律论点，同时评估了一系列提示策略的集成，包括思维链推理和上下文学习。在验证数据集上，我们的系统获得了.8095 的宏 F1 值，在最终测试集中排名第 5（21 个团队中）。

Apr, 2024

SemEval2024 任务 5：民事诉讼中的合法论证任务中的渴望学习者

该研究通过比较不同方法，调查了零样本方法在使用三种大型语言模型、两种具有大输入标记尺寸的模型和两种预训练的法律数据模型进行数据分类方面的表现。我们的主要数据集来自美国民事诉讼领域，包括法律案例摘要、具体问题、潜在答案和详细解释，这些都是从一本针对法律学生的书中获取的。通过这些实验，我们的发现展示了大型语言模型的零样本方法如何有效理解复杂数据，我们在实验中取得了最高的 F1 得分，达到了 64%。

Jun, 2024

大型语言模型中的辩证推理

评估当代大型语言模型（LLM）进行论证推理的能力，发现大语言模型在论证挖掘（AM）和论证对提取（APE）任务中表现出了能够匹配或超过最新技术的能力，但它们的论证推理性能非常依赖于输入和输出表示形式。

Sep, 2023

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

尽管具有 “超人类” 表现，当前的 LLM 系统不适合进行伦理和安全决策

提出了一种新的提示策略，其中包括要求大语言模型解释其推理过程，但结果表明，LLM 的误差与人类的误差存在系统性差异，这使得制作对抗性示例变得相对容易，表示人类表现并不一定意味着人类理解或推理能力。

Dec, 2022

用于可解释和可争议决策的论证型大型语言模型

通过引入辩证推理方法，使用大语言模型（LLMs）构建论证框架，从而使 LLMs 的决策能够被自然地解释和争辩，通过在声称验证的决策任务中的实验，我们证明了辩论性 LLMs 的有效性，结果竞争力强于同类技术。

May, 2024