辩论：基于魔鬼辩护的评估与文本评价

May, 2024

辩论：基于魔鬼辩护的评估与文本评价

DEBATE: Devil's Advocate-Based Assessment and Text Evaluation

Alex Kim, Keonwoo Kim, Sangwon Yoon

TL;DR提出了一种基于多智能体评分系统的自然语言生成（NLG）评估框架 DEBATE，通过引入反对者的概念，解决了 LLM 智能体回答中的偏见问题，从而在 NLG 评估中显著超越了现有的方法。

Abstract

As natural language generation (NLG) models have become prevalent, systematically assessing the quality of machine-generated texts has become increasingly important. Recent studies introduce LLM-based evaluators

natural language generation evaluators llm-based metrics multi-agent scoring system nlg evaluation

发现论文，激发创造

ChatEval：基于多智能体辩论的 LLM 评估器改进

通过多代理辩论框架，构建了一个名为 ChatEval 的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明 ChatEval 不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估。

Aug, 2023

通过辩论评估大型语言模型的性能

基于辩论的自动化基准评估框架可有效评估和比较大型语言模型（LLMs）的性能，同时消除了依赖人类群体的昂贵需求。

Jun, 2024

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

利用论证语义和自然语言论证图网络的自动辩论评估

本文提出了一种混合方法，通过结合论述框架、语义学、基于 Transformer 的体系结构和神经图网络来自动评估论证性辩论，并获得了有前途的结果，这为自然语言论证的自动分析开辟了新的研究方向。

Mar, 2022

评估无法评估的内容：无法评估生成响应的质量

本研究构建了两个方言生成数据集 KdConv-ADV 和 DSTC7-ADV 以综合评估基于 LLMs 的评估器的可靠性，并发现使用基于 LLMs 的参考无关评估器评估对话响应的风险存在。

May, 2023

揭示 NLG 评估器的致命弱点：由大型语言模型驱动的统一对抗框架

通过引入黑盒对抗性评估框架 AdvEval，利用强大的语言模型作为数据生成器和金标评估器，自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性，实现了对自然语言生成系统进行鲁棒性评估的研究。在 12 个受害评估器和 11 个自然语言生成数据集上的实验证明了 AdvEval 的有效性。

May, 2024

基于 LLM 的自然语言生成评估：现状与挑战

自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法，探讨了它们的优势和劣势，讨论了人机合作的 NLG 评估，并提出了该领域的几个开放问题和未来的研究方向。

Feb, 2024

多代理辩论对抗对抗攻击

通过多代理辩论和嵌入式聚类，我们研究了现代语言模型在对抗性攻击和多代理环境下的表现，并发现多代理辩论可以减少模型的有害性，并改善对不同类型攻击主题的抵抗能力。

Jan, 2024

与更具说服力的 LLMs 辩论会导致更真实的回答

大型语言模型的对齐方法主要依赖于人工标注数据，但随着模型的不断发展，人类专业知识将不再足够，将由非专家来监督专家。我们研究了一个类似情景，强大模型（专家）拥有回答问题所需的信息，而弱小模型（非专家）缺乏这些信息。我们发现辩论方法对非专家模型和人类都有帮助，相应的准确率分别为 76% 和 88%（与朴素基准分别为 48% 和 60%）。此外，以无监督方式优化专业辩手的说服力可以提高非专家模型在辩论中识别真相的能力。我们的研究结果为在没有绝对真实性的情况下，通过辩论来对齐模型提供了有益的实证证据。

Feb, 2024

辩论评估中大型语言模型的实证分析

使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究，发现 LLMs 在评估上的表现超过人类，并超过基于大量数据集微调的最先进方法。同时，研究了 LLMs 中存在的偏见，包括位置偏见、词汇偏见和顺序偏见，这可能会影响它们的评价判断。我们的发现表明，无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见，这归因于提示设计。此外，在 GPT-3.5 和 GPT-4 中也存在词汇偏见，特别是当含义具有数字或顺序的标签集时，强调在提示设计中需谨慎选择标签的表述。此外，我们的分析表明，这两个模型倾向于认为辩论的结束方是获胜方，暗示存在讨论末尾的偏见。

May, 2024