我们能利用大型语言模型填补相关性评判空缺吗？

May, 2024

我们能利用大型语言模型填补相关性评判空缺吗？

Can We Use Large Language Models to Fill Relevance Judgment Holes?

Zahra Abbasiantaeb, Chuan Meng, Leif Azzopardi, Mohammad Aliannejadi

TL;DR利用大型语言模型填补测试集中的空缺，以扩展现有的测试集合，并找出人工注释与自动注释的一致性差异，从而更好地满足人类需求的工作。

Abstract

Incomplete relevance judgments limit the re-usability of test collections. When new systems are compared against previous systems used to build the pool of judged documents, they often do so at a disadvantage due

relevance judgments test collections large language models conversational search human annotations

发现论文，激发创造

在法律案例检索中利用大型语言模型进行相关判断

利用大型语言模型进行相关判决的准确性研究，提出了一种适用于法律案例相关判决的新型工作流程，并通过与人工专家判断的比较，证明了该工作流程可以获得可靠的相关判决，并通过大型语言模型生成的数据综合增强现有的法律案例检索模型的能力。

Mar, 2024

产品搜索的相关判断大型语言模型

基于 Large Language Models (LLMs) 的技术，通过自动化查询 - 商品对的相关性判断，改善产品搜索的相关性预测精度，对商品搜索的相关判断自动化领域具有重要影响。

Jun, 2024

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

大型语言模型的数量化知识检索

大型语言模型可用于定量信息检索，以帮助数据分析任务，如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架，将大型语言模型视为科学文献的潜在空间界面，并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。

Feb, 2024

对法律判决预测的大型语言模型的全面评估

研究了大型语言模型在法律领域的应用，通过设计基于大型语言模型的实用基准解决方案，并在法律判决预测任务上测试，发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要，同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合，从而使大型语言模型的角色变得多余。

Oct, 2023

用大型经验研究代替人类法官？跨 20 个 NLP 评估任务

评估 NLP 模型时，使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH，并对 11 个当前的 LLM 进行全面评估，涵盖公开权重和专有模型，以验证其模拟注释的能力。我们的评估结果表明，每个 LLM 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论，LLM 尚不具备系统替代 NLP 中的人类评审员的能力。

Jun, 2024

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

通过少量解释来近似人类对 NLI 的判断分布：从小处寻找大视角

利用少数专家标签和解释，借助大规模语言模型 (LLM) 近似人类判断分布 (HJD), 从而提供了一种对 HJD 进行标注扩展的解决方案。然而，利用 LLM 生成的判断分布 (MJD) 进行微调时，结果存在部分不一致性，需要同时使用全局级的形状度量和可视化来更有效地评估 MJD 和 HJD 的一致性。

Jun, 2024

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

评判裁决者：评估 LLM 裁决者的一致性和脆弱性

这篇论文通过对多种语言模型作为判断者的性能进行全面研究，发现了使用 Cohen 的 kappa 作为测度对齐度的重要性，并比较了不同模型之间的判断数据；该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类，然而在排名考生模型方面，JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究，包括指导长度和仁慈偏见的影响，该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。

Jun, 2024