UTSA-NLP团队参加SemEval 2024任务5:使用GPT4进行民事诉讼中的论证推理的提示集成
本文介绍了SemEval-2020任务4:Commonsense Validation and Explanation(ComVE)挑战中的常识推理任务,探讨了几种针对该任务的深度学习方法,并使用多选题式的分类方法来提高模型准确率。研究结果表明,我们的模型在三个子任务中表现良好,并在第二个子任务中获得了很高的排名。同时,我们使用了一种强大的生成模型进行了最后一个子任务的研究,现在还有许多相关的潜在研究方向。
May, 2020
本文介绍了我们用于SemEval Task4的前两个子任务的系统,通过使用提示模板进行输入重构策略来澄清判断意图和注入对比信息以进行选择,并将子任务形式化为多选题形式来构建输入,然后,问题回答的最终预测被视为子任务的结果。实验结果表明,与基线系统相比,我们的方法在第一个和第二个子任务的官方测试集上均取得了显着的性能,我们的方法以96.4和94.3的准确率安全地排在前三名。
Jul, 2020
本文介绍了一个新的自然语言处理任务和数据集,基于美国民事诉讼领域,旨在为评估现代法律语言模型提供具有挑战的任务。研究表明,fine-tuning法律transformer模型相对于随机基线模型更有优势,但推理法律论点的实际能力仍是具有挑战性的开放性研究问题。
Nov, 2022
该论文探讨了Legal NLP领域的研究,分析了SemEval举办的LegalEval任务的三个子任务:语言角色标注,法律实体识别和法院判例预测,并总结了26个团队的研究成果。
Apr, 2023
本文评估了生成式预训练转换(GPT-4)对高度专业领域的文本数据分析任务的能力,特别关注分析法院裁决以解释法律概念的任务。我们发现,在注释指南的提示下,GPT-4的表现与经过良好培训的法律学生注释器相当。我们发现,虽然性能略有下降,但GPT-4可以进行批量预测,从而降低成本。然而,采用连贯思维提示并没有在此任务上明显提高性能。此外,我们演示了如何分析GPT-4的预测,以识别和减轻注释指南的缺陷,进而提高模型的性能。最后,我们观察到该模型非常脆弱,因为提示中的小型格式相关更改对预测结果影响很大。这些发现可被从事高度专业领域任务的文本语义/语用注释的研究人员和实践者利用。
Jun, 2023
本研究以SemEval-2023的LegalEval任务为基础,集中研究了法律命名实体识别、法院判决预测和带解释的法院判决预测等三个子任务,并通过各种实验详细展示了结果、数据统计和方法论。
Oct, 2023
本文介绍了我们在SemEval 2024任务5中提出的内容:民事诉讼中的法律争议推理任务。我们提出了解决法律答案验证问题的两种方法:首先,对预训练的BERT模型进行了微调,并发现基于领域知识训练的模型效果更好;其次,我们对GPT模型进行了少样本提示,发现将答案验证任务改为多项选择问题显著提高了模型的性能。我们的最佳模型是基于BERT的模型,在20个参赛作品中取得了第7名。
Apr, 2024
使用强大的 ChatGPT 模型作为教师模型,通过生成解释和合成数据来扩展训练数据集,并利用生成的数据微调一个小型学生模型。与以往的工作不同,我们的解释不是直接来自教师模型的内部知识,而是基于真实人类分析,从而提供出更优的推理信号。还使用一种新的“变异”方法生成受现有数据启发的人工数据实例。我们公开发布这些解释作为原始数据集的扩展,以及用于生成两者的提示。我们的系统在 SemEval 比赛中排名第15位。它的性能优于自身教师模型,并且能够生成与原始人类分析一致的解释,经过法律专家验证。
May, 2024
这篇论文介绍了在NLP领域中进行的关于垂直思维的重要工作,随后探讨了对横向思维的研究不足以及SemEval 2024引入的BRAINTEASER任务,主要涉及句子拼图和词语拼图两种类型的问题,并借助GPT-3.5上使用少量提示的方法处理这两种类型的问题,并从中获得了对两种类型问题性质差异的洞见。在Sentence Puzzle和Word Puzzle任务中,我们的提示策略在排行榜上分别位列第26和第15。
May, 2024
该研究通过比较不同方法,调查了零样本方法在使用三种大型语言模型、两种具有大输入标记尺寸的模型和两种预训练的法律数据模型进行数据分类方面的表现。我们的主要数据集来自美国民事诉讼领域,包括法律案例摘要、具体问题、潜在答案和详细解释,这些都是从一本针对法律学生的书中获取的。通过这些实验,我们的发现展示了大型语言模型的零样本方法如何有效理解复杂数据,我们在实验中取得了最高的F1得分,达到了64%。
Jun, 2024