DebUnc：通过不确定性估计减轻大型语言模型代理通信中的幻象

Jul, 2024

DebUnc：通过不确定性估计减轻大型语言模型代理通信中的幻象

DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations

Luke Yoffe, Alfonso Amayuelas, William Yang Wang

TL;DR利用不确定性指标评估代理人置信水平的带不确定性的多智能体辩论框架，通过调整标记权重和使用文本提示来提高大型语言模型能力。

Abstract

To enhance large language model (LLM) capabilities, multi-agent debates have been introduced, where multiple LLMs discuss solutions to a problem over several rounds of debate. However, LLMs often produce incorrec

发现论文，激发创造

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

通过多智能体辩论促进大型语言模型的发散性思维

本研究提出了多智能体辩论(MAD)框架，该框架利用自身分歧思维来解决大型语言模型(LLMs)的陈腐思维问题和推理任务不足的问题。实验结果表明，MAD框架在常识机器翻译和反直觉算术推理等任务上表现良好，且需要较高水平的辩论和调整控制矩阵来保证其效果。

May, 2023

ChatEval：基于多智能体辩论的LLM评估器改进

通过多代理辩论框架，构建了一个名为ChatEval的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明ChatEval不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估。

Aug, 2023

调和：圆桌会议通过多样LLMs达成共识提升推理能力

通过多轮讨论、学习说服他人并采用加权投票机制，ReConcile 提出了一种多模型多智能体框架，以改进大型语言模型的推理能力，并达到更好的共识。

Sep, 2023

大型语言模型是否可信用于评估？通过代理辩论对大型语言模型作为评估者进行可扩展元评估

通过多轮讨论辅助的 ScaleEval 元评估框架，充分利用多个交流能力的大语言模型代理进行可伸缩元评估，帮助人工标注员判断最有能力的大语言模型作为评估者，从而显著减轻他们的工作量。

Jan, 2024

大型语言模型在与人类辩论的局限性

当前的研究论文测试了大型语言模型（LLMs）的可行性，作为人工代理人参与社会学实验中的对话活动，揭示了LLMs在辩论中的限制，以及其对人类的影响和能力。

Feb, 2024

LongAgent: 通过多智能体协作将语言模型扩展至128k上下文

通过多智能体协作的方法，我们提出了一种名为LongAgent的方法，将大型语言模型（例如LLaMA）的上下文窗口扩展到128K，并在长文本处理方面展示了相对于GPT-4的潜在优势。LongAgent中，一个领导者负责理解用户意图并指导团队成员从文档中获取信息。通过开发一种成员间的信息共享机制来解决因幻觉引起的回应冲突，我们的实验结果表明LongAgent在长文本处理方面提供了一种有希望的选择。使用LLaMA-7B实例化的智能体团队相较于GPT-4在128k长文本检索、多跳问题回答等任务中取得了显著的改进。

Feb, 2024

基于马尔可夫链的多主体辩论框架用于检测LLM虚构

我们提出了基于马尔可夫链的多代理辩论验证框架，用于增强简要声明中的错误检测准确性，并通过包括声明检测、证据检索和多代理验证在内的事实检查过程集成验证的方法。实验证明，我们的方法在三个生成任务中相比基准线实现了显著改进。

Jun, 2024

多智能体协作攻击：通过辩论研究大规模语言模型协作中的对抗攻击

评估模型网络在对抗影响下通过辩论进行合作时的行为，探索推理时间方法生成更令人信服的论点，并评估基于提示的缓解作为一种防御策略的潜力。

Jun, 2024

辩论问答：评估可辩知识上的问答能力

本研究解决了传统问答基准在评估可辩问题的能力时存在的不足，提出了DebateQA数据集，包含2941个可辩问题及多种人类标注的部分答案，反映各种观点。通过设计“观点多样性”和“争议意识”两个指标，我们评估了12个流行大型语言模型的表现，发现尽管这些模型能识别出可辩问题，但提供全面及多样化观点的能力差异显著。

Aug, 2024