RELIC: 检索文学主张的证据
该研究旨在改善自动事实核查系统,并尝试将原始文档的全文作为证据,并引入了两个丰富的数据集。实验证明,即使没有标注黄金证据句子,包括原始文档在内的证据可以提供足够的上下文线索,该系统能够在不同的设置下显著提高最佳报告模型的精度。
May, 2023
本研究通过关键字检索对多种大型语言模型进行评估,发现这些模型在科学文档推理任务中会使用编造的证据来支持预测,利用科学语料库进行预训练无法减轻证据捏造的风险。
Nov, 2023
提出了一种名为 “ReRead” 的验证模型,旨在通过训练证据检索器来获取可解释证据,并通过验证理财顾问提高准确性,从而达到提高验证性能的目的。
May, 2023
本文提出了一种完全自动化的流水线,通过从 Web 检索原始证据来检查实际世界中的索赔,结果表明,我们的流水线可以提供可靠且相关的证据摘要,从而帮助事实检查员甄别真假索赔。
May, 2023
通过使用 Shapley 值以识别证据在最终预测中的相对重要性,Retrieve to Explain(R2E)能够根据文件语料库中的证据,优先考虑对研究问题的一组预先定义的可能答案,从而解决了机器学习模型特别是语言模型在解释性上的困难,并在从科学文献中识别药物靶标这一实用案例上展现了其优越性。
Feb, 2024
本研究通过构建 ConflictingQA 数据集并进行敏感性和反事实分析,发现当前的检索增强语言模型(LLMs)在回答有争议问题时很大程度上依赖于网页与查询的相关性,而忽视了人类认为重要的文本特征,如文本是否包含科学参考文献或使用中性语调,这凸显了 RAG 数据集质量(如过滤信息错误)的重要性,甚至可能需要改变 LLMs 的训练方式以更好地与人类判断相一致。
Feb, 2024
通过强化学习从人类偏好中得出支持性证据,训练生成回答并支持其声称的 “开放式书目” QA 模型。该模型能够从搜索引擎中找到的多个文档或单个用户提供的文档中提取支持证据。通过在 NaturalQuestions 和 ELI5 数据集的子集中进行的人类评估,该模型的响应在这两个子集中 80%和 67%的时间内达到高质量水平,但并非所有声称都被支持的证据是正确的。
Mar, 2022
通过介绍一个名为 RepLiQA 的新测试数据集,本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题,并通过对各种型号和规模的模型进行基准测试,揭示它们在不同情境条件下的性能差异。
Jun, 2024
通过提取和融合来源摘要的相关证据理由,提出了一种调用二分类序列逐个进行预测子任务的模块化方法,从而实现科学主张的自动验证,包括验证支持和反驳证据,该方法名为 RerrFact,并平台竞争 SciFact 排行榜。
Feb, 2022