法律面前人人平等:公正性的法律判决一致性分析
大型语言模型在道德场景中呈现高度不一致性,因此提出了一种新的信息熵测量方法 —— 语义图熵(SGE)。通过使用模型的决策策略解释的 “经验法则”(RoTs),我们的度量与人类判断更好地相关,并计划研究和改进 LLM 不一致性的根本原因。
Jan, 2024
通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点,该数据集比以前的数据集更高效且高度可重复。然而,大多数 LL 模型在 SummEdits 上表现不佳,最好的 GPT-4 模型仍然比人类的表现差 8%,这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。
May, 2023
通过在 GenBench 合作基准任务中引入 ICL 一致性测试,我们对适应任务的通过提示方法(如上下文学习)的大型语言模型执行预测的一致性进行了评估,并发现所有测试的 LLM 模型均缺乏强健的泛化能力。
Dec, 2023
近期的研究表明,预训练的大型语言模型(LLMs)具有类似于人类观察到的认知结构,促使研究人员探究 LLMs 的认知方面。本文聚焦于心理学中的一个独特两级认知结构,即显性社会偏见和隐性社会偏见。我们提出了一个两阶段的方法,并在 LLMs 中发现了一个并行现象,即社会偏见中的 “重新判断不一致”。实验调查 ChatGPT 和 GPT-4 关于心理学中常见的性别偏见,证实了重新判断不一致的高度稳定性。这一发现可能表明,随着 LLMs 的能力增强,不同的认知结构也会出现。因此,利用心理学理论可以提供对 LLMs 中显性和隐性结构表达的潜在机制的深入洞察。
Aug, 2023
研究中提出了 ConsisEval 基准,用于量化大型语言模型的一致性,并通过相对一致性得分分析改进一致性的潜力。综合实验结果表明,尽管 GPT-4 的一致性得分最高,但仍然对特定问题存在不一致性,这可能是由于多余信息干扰、对问题的错误解读等因素导致的。而能力更强的模型通常具有更高的一致性,但也存在例外情况,并且硬数据能够提高微调和上下文学习的一致性。
Jun, 2024
在人工智能的领域中,大型语言模型(LLMs)需求渐趋增长。本研究通过命题竞辩框架来探讨多个 LLMs 之间的持续性以及一致性问题,确立了公正比赛,失调比赛和圆桌比赛的三个阶段,并在多个常识推理数据集上进行了广泛的实验,从而提出了令人信服的解决方案
May, 2023
本文通过大型语言模型(LMs)彻底研究和研究了同行评审中的公平性差异问题,在多个受保护属性的兴趣下,包括作者性别,地理,作者和机构声望等方面,观察到差异水平不同,文本特征在减少偏见中是必不可少的,同时研究了同行评审过程的自动化机器评审系统的一个具体例子,并提供了评审生成和评分任务的基准模型,这个数据集可用作基准。
Nov, 2022
这篇论文研究了大型语言模型(LLMs)中存在的跨语言的不一致性,并通过创新的评估方法和指标,综合评估了模型在语义、准确性和及时性方面的一致性,以提升对多语言能力和可解释性的理解和改进,为更强大和可靠的多语言模型的开发做出贡献。
Jul, 2024
大型语言模型可以产生合理的声明逻辑一致性的数值评级。我们提出了一种基于构束理论的数学方法,将这些评级扩展到诸如法律、司法和社交媒体等超文本,并对其整体一致性进行评估。这种方法是增加政府一致性、对抗错误信息和相关问题的一个有前景的途径。
Jan, 2024
我们通过构建 LLM 一致性任务数据集和设计多个基准模型,使用传统的自然语言生成度量标准(即 ROUGE,BLEU,METEOR)作为模型训练所需的特征,在主要实验中超越了人工评估、GPT3.5 以及其他模型,取得了最佳性能,最终利用最佳表现的 LightGBM 模型构建了评估工具,可以有效地帮助业务模型的部署。
Feb, 2024