辩论问答：评估可辩知识上的问答能力

Aug, 2024

辩论问答：评估可辩知识上的问答能力

DebateQA: Evaluating Question Answering on Debatable Knowledge

Rongwu Xu, Xuan Qi, Zehan Qi, Wei Xu, Zhijiang Guo

TL;DR本研究解决了传统问答基准在评估可辩问题的能力时存在的不足，提出了DebateQA数据集，包含2941个可辩问题及多种人类标注的部分答案，反映各种观点。通过设计“观点多样性”和“争议意识”两个指标，我们评估了12个流行大型语言模型的表现，发现尽管这些模型能识别出可辩问题，但提供全面及多样化观点的能力差异显著。

Abstract

The rise of Large Language Models (LLMs) has enabled us to seek answers to inherently debatable questions on LLM chatbots, necessitating a reliable way to evaluate their ability. However, traditional QA benchmarks assume fixed answers are inadequate for this purpose. To address this, w

发现论文，激发创造

CoQA: 一项面向对话的问题回答挑战

本篇论文提出了一种建立对话式问答系统的新数据集CoQA，包含来自七个不同领域的8,000个对话中127,000个具有答案的问题，分析表明，这些问题比现有的阅读理解数据集具有更多挑战性和难点，需要针对性的解决方案，评测结果显示目前最好的系统F1得分为65.4％，仍然有大量的改进空间。

Aug, 2018

通过辩论深入探究大型语言模型的内部一致性

在人工智能的领域中，大型语言模型（LLMs）需求渐趋增长。本研究通过命题竞辩框架来探讨多个LLMs之间的持续性以及一致性问题，确立了公正比赛，失调比赛和圆桌比赛的三个阶段，并在多个常识推理数据集上进行了广泛的实验，从而提出了令人信服的解决方案

May, 2023

对长篇问答评估的关键评估

对长篇答案进行有针对性的评估研究，强调评估多维度因素，发现自动文本生成的评价指标不能预测人类喜好，建议未来的评估中，应该注重准确性、完整性和客观性等多个方面。

May, 2023

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于LLM的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

DELPHI：评估LLM在处理有争议问题上的性能数据

我们提出了一个具有争议性的问题数据集的构建方法，通过评估不同的大型语言模型（LLMs）在这个数据集上的表现，揭示了它们如何处理具有争议性的问题以及它们采取的立场，从而为我们提供了对LLMs与争议性问题的互动的理解，为改进它们对复杂社会议题的理解和处理铺平了道路。

Oct, 2023

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

LLMs是否能代表不同群体？通过辩论调整LLMs以生成可控的争议性陈述

通过对抗式辩论生成支持用户定义论点的语句，我们改善了LLMs的可控性，扩展了其表达多样性的能力，从而使LLMs生成支持有争议的论点的高质量语句。

Feb, 2024

重新思考基于生成的大型语言模型对语义理解的评估

通过对24种模型的11个评估标准进行综合评估，本文首先回顾了当前的评估方法——多项选择题回答（MCQA），并突出了MCQA的一些潜在缺点，接着引入了RWQ-Elo评分系统，通过24种大型语言模型的竞争性对战，模拟现实世界的使用情景，最后分析了系统特点、与先前排行榜的对比，揭示了RWQ-Elo系统的稳定性、注册新模型的可行性和其重塑LLM排行榜的潜力。

Mar, 2024

通过辩论评估大型语言模型的性能

基于辩论的自动化基准评估框架可有效评估和比较大型语言模型（LLMs）的性能，同时消除了依赖人类群体的昂贵需求。

Jun, 2024

RepLiQA：用于评估LLMs在未见参考内容上的问答数据集

通过介绍一个名为RepLiQA的新测试数据集，本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题，并通过对各种型号和规模的模型进行基准测试，揭示它们在不同情境条件下的性能差异。

Jun, 2024