RELIC: 检索文学主张的证据

ACLMar, 2022

RELIC: Retrieving Evidence for Literary Claims

Katherine Thai, Yapei Chang, Kalpesh Krishna, Mohit Iyyer

TL;DR利用 RELiC 数据集研究文学证据检索，采用 RoBERTa-based 的密集段落检索器进行实验并取得了一定成果，但需要进一步提升

Abstract

Humanities scholars commonly provide evidence for claims that they make about a work of literature (e.g., a novel) in the form of quotations from the work. We collect a large-scale dataset (RELiC) of 78K literary quotations and surrounding critical analysis and use it to formulate the novel task of →

literary evidence retrieval relic dataset roberta-based dense passage retriever literary and linguistic phenomena information retrieval

发现论文，激发创造

提供更多细节：利用潜在检索改进事实核查

该研究旨在改善自动事实核查系统，并尝试将原始文档的全文作为证据，并引入了两个丰富的数据集。实验证明，即使没有标注黄金证据句子，包括原始文档在内的证据可以提供足够的上下文线索，该系统能够在不同的设置下显著提高最佳报告模型的精度。

May, 2023

图书问答中令人沮丧的证据检索

本研究探讨了如何在叙述式图书中进行开放域问题回答（QA）任务，揭示了书籍中的证据检索难度，并提出了解决方案。

Jul, 2020

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

再读一遍：通过重新审视证据实现忠实可解释的事实验证

提出了一种名为 “ReRead” 的验证模型，旨在通过训练证据检索器来获取可解释证据，并通过验证理财顾问提高准确性，从而达到提高验证性能的目的。

May, 2023

从野外获取证据进行的复杂索赔验证

本文提出了一种完全自动化的流水线，通过从 Web 检索原始证据来检查实际世界中的索赔，结果表明，我们的流水线可以提供可靠且相关的证据摘要，从而帮助事实检查员甄别真假索赔。

May, 2023

检索解释：基于证据的语言模型预测

通过使用 Shapley 值以识别证据在最终预测中的相对重要性，Retrieve to Explain（R2E）能够根据文件语料库中的证据，优先考虑对研究问题的一组预先定义的可能答案，从而解决了机器学习模型特别是语言模型在解释性上的困难，并在从科学文献中识别药物靶标这一实用案例上展现了其优越性。

Feb, 2024

语言模型找到什么证据有说服力？

本研究通过构建 ConflictingQA 数据集并进行敏感性和反事实分析，发现当前的检索增强语言模型（LLMs）在回答有争议问题时很大程度上依赖于网页与查询的相关性，而忽视了人类认为重要的文本特征，如文本是否包含科学参考文献或使用中性语调，这凸显了 RAG 数据集质量（如过滤信息错误）的重要性，甚至可能需要改变 LLMs 的训练方式以更好地与人类判断相一致。

Feb, 2024

教授语言模型通过验证的引文支持答案

通过强化学习从人类偏好中得出支持性证据，训练生成回答并支持其声称的 “开放式书目” QA 模型。该模型能够从搜索引擎中找到的多个文档或单个用户提供的文档中提取支持证据。通过在 NaturalQuestions 和 ELI5 数据集的子集中进行的人类评估，该模型的响应在这两个子集中 80％和 67％的时间内达到高质量水平，但并非所有声称都被支持的证据是正确的。

Mar, 2022

RepLiQA：用于评估 LLMs 在未见参考内容上的问答数据集

通过介绍一个名为 RepLiQA 的新测试数据集，本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题，并通过对各种型号和规模的模型进行基准测试，揭示它们在不同情境条件下的性能差异。

Jun, 2024

RerrFact: 用于科学论述验证的减少证据检索表示

通过提取和融合来源摘要的相关证据理由，提出了一种调用二分类序列逐个进行预测子任务的模块化方法，从而实现科学主张的自动验证，包括验证支持和反驳证据，该方法名为 RerrFact，并平台竞争 SciFact 排行榜。

Feb, 2022