使用大型语言模型评估政治问答环节中的回答质量

Apr, 2024

使用大型语言模型评估政治问答环节中的回答质量

Evaluating the Quality of Answers in Political Q&A Sessions with Large Language Models

R. Michael Alvarez, Jacob Morrier

TL;DR基于语义搜索的方法来评估政治问答环节中答案的质量，结果显示答案质量与议会成员的政党隶属和问题主题之间存在显著相关性。

Abstract

This paper presents a new approach to evaluating the quality of answers in political question-and-answer sessions. We propose to measure an answer's quality based on the degree to which it allows us to infer the

answers question-and-answer sessions quality evaluation semantic search political context

发现论文，激发创造

通过语义一致性预测大型语言模型的问答性能

我们通过手动创建一个高质量的事实问答近义词语料库，并与先前工作中的其他相关度量标准相结合，以评估现代大型语言模型（LLMs）的语义一致性，以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估，我们展示了令人鼓舞的结果，显著超越了基线水平。

Nov, 2023

可靠的学术会议问答：基于大型语言模型的研究

我们提出了 ConferenceQA 数据集，基于 LLMs 的会议问答研究，使用检索方法增强 LLMs 的问答能力。

Oct, 2023

大规模语言模型的多语言文档问答评估方法

通过使用大型语言模型，本文研究了这些模型的多语言能力。初步结果表明，将原始语言环境、问题和答案翻译成高资源语言会产生最佳结果。

Feb, 2024

评估问答系统：评判自然语言的复杂性

本文针对问答系统的发展历程、评估指标及其相应的理论框架进行综述，并探讨了相关的评估方法和数据集。

Sep, 2022

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

去除黄金标准：重新评估对话问答

本文对目前最先进的对话问答系统进行了首次的大规模人类评估，发现人类与机器之间的对话存在显著差异。此外，基于预测历史的问题重写机制能够更好地与人类判断相一致。通过研究各种建模策略，讨论了构建更好的对话问答系统的未来方向。

Dec, 2021

属性问答：针对属性化大语言模型的评估和建模

本文研究基于属性的 LLM 发展，在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属（attribution）以及现有方法在归属方面的表现如何，并提出了建立带归属特性的 LLMs 的可能方向。

Dec, 2022

利用大型语言模型改进自动 VQA 评估

借助大型语言模型的上下文学习能力，我们提出了一个更好的 VQA 评估指标，该指标在多个 VQA 模型和基准测试中与人类判断更好地相关，希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。

Oct, 2023

ExpertQA: 专家策划的问题及答案

验证与归因对于领域特定的语言模型在高风险领域中提供准确信息至关重要，本研究通过领域专家的参与，对领域特定的语言模型生成的回答进行事实性和归因方面的评估研究，并构建了包含 32 个领域，2177 个问题以及验证答案和归因的高质量长型问答数据集 ExpertQA。

Sep, 2023

在大语言模型时代评估开放领域问答

通过人工评估，我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果，且所有模型的真实性能均被显著低估，同时超过 50％的词汇匹配失败归因于意义相当的答案，正则匹配排名与人类判断一致

May, 2023