Vera: 通用常识语句可信度估计模型
最近在领域特定命名实体识别(NER)方面采取的方法取得了显著进展,但它们仍然缺乏准确性,产生错误预测。本文提出了一种后续验证框架 VerifiNER,通过利用知识来从现有的 NER 方法中识别错误并修正成更为准确的预测。我们的框架利用大型语言模型的推理能力和背景信息,在验证过程中充分基于知识。通过对生物医学数据集进行广泛实验验证了 VerifiNER 的有效性。结果表明,作为一种模型无关的方法,VerifiNER 可以成功验证现有模型的错误。对于领域外和资源有限情况的进一步分析显示了 VerifiNER 在实际应用中的有用性。
Feb, 2024
VeraCT Scan 是一种新颖的基于检索增强的虚假新闻检测系统,通过提取核心事实,并进行互联网搜索来判断新闻的真实性,并利用来源的可信度进行信息验证,并提供透明的证据和推理来支持结论,从而增加结果的可解释性和信任。
Jun, 2024
本研究通过层次聚类和曲线拟合的方法,对 263 个模型中的 971 个时间序列进行了分类,以展示在生态建模领域中显示内容有效性的通用方法。结果显示,这一方法在测试集中 89.38%的样本曲线上两种分类方法达成了一致,表明我们的内容有效性确定方法是成功的。
Dec, 2023
本文介绍了 SemEval-2020 任务 4:Commonsense Validation and Explanation(ComVE)挑战中的常识推理任务,探讨了几种针对该任务的深度学习方法,并使用多选题式的分类方法来提高模型准确率。研究结果表明,我们的模型在三个子任务中表现良好,并在第二个子任务中获得了很高的排名。同时,我们使用了一种强大的生成模型进行了最后一个子任务的研究,现在还有许多相关的潜在研究方向。
May, 2020
通过使用独立验证器处理语言模型的输出和知识,本研究提出了一种验证方法,以解决语言模型在生成文本时可能存在的错误。结果表明,该验证器可以有效地识别检索和生成错误,使语言模型能够提供更准确的结果。
Oct, 2023
通过强化学习从人类偏好中得出支持性证据,训练生成回答并支持其声称的 “开放式书目” QA 模型。该模型能够从搜索引擎中找到的多个文档或单个用户提供的文档中提取支持证据。通过在 NaturalQuestions 和 ELI5 数据集的子集中进行的人类评估,该模型的响应在这两个子集中 80%和 67%的时间内达到高质量水平,但并非所有声称都被支持的证据是正确的。
Mar, 2022
Decker 是一种应用于常识事实验证的模型,它可以通过发现结构化和非结构化知识之间的潜在关系,实现异构知识的桥接,并实现更精确的理解和推理。实验结果表明,Decker 在两个常识事实验证基准数据集上表现出很高的准确性和能力。
May, 2023
提出了一种名为自验证的方法,该方法使用推理链的结论作为条件建立新的样本,并要求大型语言模型重新预测原始条件,从而降低了多任务精度误差。经过大量实验验证,此方法可以使大型语言模型避免出现不正确的推理链干扰,并实现具有竞争力的推理性能,可用于算术和逻辑推理数据集的有限次学习。
Dec, 2022
使用问题回答预测自然逻辑运算符,不依赖标注数据、具有确定性推理系统的方法,在少样本设置下,在 FEVER 上的准确度比最佳基线提高了 4.3 个百分点,并且在丹麦验证数据集上超过了所有其他方法,展示了系统的鲁棒性和可移植性,通过人工评估得出结论:相较于之前的基于自然逻辑的系统,我们的方法产生了更可信的证据,并且使用更少错误的自然逻辑运算符。
Oct, 2023
文章提出了一种基于 LOREN 的 Fact Verification 方法,将整个主张的验证分解成短语级别,以短语真实性作为解释,并根据逻辑规则汇总到最终的裁决中。LOREN 的关键在于将 claim 短语真实性表示为三值潜变量。实验结果表明,LOREN 在 Faithful 和 Interpretability 方面具有竞争力,其资源可在 URL 中找到。
Dec, 2020