通过多代理辩论框架,构建了一个名为 ChatEval 的多代理裁判团队,用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量,分析结果表明 ChatEval 不仅仅提供文本评分,还提供了模拟人类评估过程以进行可靠评估。
Aug, 2023
基于辩论的自动化基准评估框架可有效评估和比较大型语言模型(LLMs)的性能,同时消除了依赖人类群体的昂贵需求。
Jun, 2024
通过多轮讨论辅助的 ScaleEval 元评估框架,充分利用多个交流能力的大语言模型代理进行可伸缩元评估,帮助人工标注员判断最有能力的大语言模型作为评估者,从而显著减轻他们的工作量。
Jan, 2024
本文提出了一种混合方法,通过结合论述框架、语义学、基于 Transformer 的体系结构和神经图网络来自动评估论证性辩论,并获得了有前途的结果,这为自然语言论证的自动分析开辟了新的研究方向。
Mar, 2022
本研究构建了两个方言生成数据集 KdConv-ADV 和 DSTC7-ADV 以综合评估基于 LLMs 的评估器的可靠性,并发现使用基于 LLMs 的参考无关评估器评估对话响应的风险存在。
May, 2023
通过引入黑盒对抗性评估框架 AdvEval,利用强大的语言模型作为数据生成器和金标评估器,自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性,实现了对自然语言生成系统进行鲁棒性评估的研究。在 12 个受害评估器和 11 个自然语言生成数据集上的实验证明了 AdvEval 的有效性。
May, 2024
自然语言生成(NLG)的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法,探讨了它们的优势和劣势,讨论了人机合作的 NLG 评估,并提出了该领域的几个开放问题和未来的研究方向。
Feb, 2024
通过多代理辩论和嵌入式聚类,我们研究了现代语言模型在对抗性攻击和多代理环境下的表现,并发现多代理辩论可以减少模型的有害性,并改善对不同类型攻击主题的抵抗能力。
大型语言模型的对齐方法主要依赖于人工标注数据,但随着模型的不断发展,人类专业知识将不再足够,将由非专家来监督专家。我们研究了一个类似情景,强大模型(专家)拥有回答问题所需的信息,而弱小模型(非专家)缺乏这些信息。我们发现辩论方法对非专家模型和人类都有帮助,相应的准确率分别为 76% 和 88%(与朴素基准分别为 48% 和 60%)。此外,以无监督方式优化专业辩手的说服力可以提高非专家模型在辩论中识别真相的能力。我们的研究结果为在没有绝对真实性的情况下,通过辩论来对齐模型提供了有益的实证证据。
使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究,发现 LLMs 在评估上的表现超过人类,并超过基于大量数据集微调的最先进方法。同时,研究了 LLMs 中存在的偏见,包括位置偏见、词汇偏见和顺序偏见,这可能会影响它们的评价判断。我们的发现表明,无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见,这归因于提示设计。此外,在 GPT-3.5 和 GPT-4 中也存在词汇偏见,特别是当含义具有数字或顺序的标签集时,强调在提示设计中需谨慎选择标签的表述。此外,我们的分析表明,这两个模型倾向于认为辩论的结束方是获胜方,暗示存在讨论末尾的偏见。