JustiLM: 针对真实世界的主张可解释性事实检验的少样例事实描述生成
自动化生成证明(说明为何某主张被分类为真或假)的过程在抵制虚假信息方面起到重要作用,这篇论文针对无结构知识(如新闻文章)的摘要方法进行了实验证明,结果显示,通过基于主张信息的抽取步骤改善摘要性能可以从证明生成摘要中获益。
Aug, 2023
该论文介绍了一种基于经验分析的可解释性声明验证系统 ExClaim,通过像法律系统一样的理性化方法,提供说明模型决策过程的自然语言解释,有助于改进人工智能的可靠性和减少警惕性。
Jan, 2023
我们提出了一种端到端的多模态事实核查和解释生成方法,利用包括文章、图片、视频以及推特在内的大量网络资源来评估索赔的真实性,并生成一个有理化陈述来解释推理和裁定过程。我们构建了 Mocheg,这是一个大规模数据集,包括 21,184 个索赔和 58,523 条文本和图像形式的证据。我们在多模态证据检索、索赔验证和解释生成三个子任务上进行了几种最先进的神经网络结构的实验,以建立基准性能,并展示端到端多模态事实核查的最新性能仍然远远不够令人满意。据我们所知,我们是第一个建立端到端多模态事实核查和证明基准数据集和解决方案的研究团队。
May, 2022
本研究论文介绍了一种名为 FOLK(First-Order-Logic-Guided Knowledge-Grounded Reasoning)的方法,用大型语言模型(LLMs)进行复杂声明的验证和解释生成,同时不需要基于人工标注的证据。该方法通过将声明转化为由谓词组成的一阶逻辑子句,每个谓词对应需验证的一个子声明,并利用一组知识基础的问答对进行一阶逻辑引导的推理,从而做出真实性预测并生成解释以说明其决策过程,使模型高度解释性。实验结果表明,FOLK 在涵盖各种声明验证挑战的三个数据集上优于强基线模型。
Oct, 2023
通过一系列实验,本文对可解释的事实核查进行了全面分析,重点研究了大型语言模型验证公共健康主张的能力,并提供解释或证明其真实性评估的能力。我们通过零 / 少提示和参数高效微调的形式,在各种开放和封闭源模型中,检验了它们在真实性预测和解释生成的孤立和联合任务中的效果。重要的是,我们采用了前期确认的自动度量标准和一套新标准的人工评估方式来进行双重评估。自动评估结果显示,在零提示场景下,GPT-4 是出类拔萃的表现者,但在少提示和参数高效微调的情况下,开放源模型不仅能够填补性能差距,而且在某些情况下超过了 GPT-4。人工评估显示出更多细微差异,并且指出了黄金解释可能存在的问题。
May, 2024
本文介绍了一种自我训练方法,利用有标记和无标记数据进一步改进少样本模型的效果,并提出了一种新的损失函数 Masked Label Regularization(MLR),以促进解释与预测标签之间的紧密联系。在三个公共数据集上的评估表明,所提出的方法在建模任务标签和生成忠实的解释方面是有效的。
Jun, 2023
利用大型语言模型的少样本学习能力,我们提出了一种新颖的提示技术,即增强断言的少样本学习,以促进准确、详细的教育解释的生成。通过对 12 名在职教师的比较研究,我们证明了增强断言的少样本学习在解释准确性上提高了 15%,并且得到了教师评价中更高质量的解释。我们还进行了定性消融研究,以考察断言对生成感兴趣领域解释的影响,从而为教育者提供友好的提示指南。
Dec, 2023
我们的研究调查了大型语言模型生成解释的能力,发现零样本提示通常导致不忠实的结果。为了解决这些挑战,我们提出了多代理辩论修正(MADR)框架,利用多个具有不同角色的大型语言模型作为代理,在迭代的修饰过程中提高了生成解释的忠实性。MADR 确保最终的解释经过严格验证,显著降低了不忠实元素的可能性,并与提供的证据紧密相符。实验证明,MADR 显著提高了大型语言模型生成解释与证据的忠实性,提升了这些解释的可信度和可靠性。
Feb, 2024