请教专家：利用语言模型改进目标导向对话模型中的战略推理

ACLMay, 2023

请教专家：利用语言模型改进目标导向对话模型中的战略推理

Ask an Expert: Leveraging Language Models to Improve Strategic Reasoning in Goal-Oriented Dialogue Models

Qiang Zhang, Jason Naradowsky, Yusuke Miyao

TL;DR本论文提出 “请教专家” 框架，通过对话模型与专家的结合，对话模型可以通过结构化对话咨询专家并优化模型的效果，通过在心理健康支持领域的应用表明，使用此框架可以提高对话模型的质量，并取得了人类水平的得分。

Abstract

Existing dialogue models may encounter scenarios which are not well-represented in the training data, and as a result generate responses that are unnatural, inappropriate, or unhelpful. We propose the "ask an expert

dialogue models ask an expert mental health support llm quality improvement

发现论文，激发创造

CarExpert：利用大型语言模型实现车载对话问答

CarExpert 通过借助大型语言模型（LLMs）在不针对特定任务和数据进行微调的情况下，控制输入，为抽取和生成回答组件提供特定领域的文档，并控制输出，以确保生成自然、安全且针对汽车领域的答案，优于最先进的 LLMs。

Oct, 2023

与更具说服力的 LLMs 辩论会导致更真实的回答

大型语言模型的对齐方法主要依赖于人工标注数据，但随着模型的不断发展，人类专业知识将不再足够，将由非专家来监督专家。我们研究了一个类似情景，强大模型（专家）拥有回答问题所需的信息，而弱小模型（非专家）缺乏这些信息。我们发现辩论方法对非专家模型和人类都有帮助，相应的准确率分别为 76% 和 88%（与朴素基准分别为 48% 和 60%）。此外，以无监督方式优化专业辩手的说服力可以提高非专家模型在辩论中识别真相的能力。我们的研究结果为在没有绝对真实性的情况下，通过辩论来对齐模型提供了有益的实证证据。

Feb, 2024

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

大型语言模型应通过行为模拟成为复杂人类系统的专家顾问

在本文中，我们探讨了大型语言模型（LLMs）在复杂人类系统中的推理能力，并提出了一种新的推理框架 ——“Mosaic Expert Observation Wall”（MEOW），利用生成型代理模拟技术。通过模拟数据训练一个专家模型，该模型在每个独立的模拟时间中专注于某个特定任务的 “经验”，通过模拟积累的 “经验” 使其成为复杂人类系统中某个任务的专家。我们在模拟真实世界安全场景的通信游戏中进行了实验，结果表明我们提出的方法可以与现有方法协同工作，增强大型语言模型在复杂人类系统中的推理能力。

Mar, 2024

语言模型的战略推理

使用预训练的大型语言模型，并通过有限的示例进行引导，使智能代理能够进行战略推理和协商，而不需要任何额外的训练或微调。

May, 2023

更多询问，更深了解：基于大语言模型的增强学习问句在决策制定中的应用

利用领导者 - 追随者双层框架，本文实现了一个完全集成的端到端框架，用于处理复杂的推理任务，并通过引入历史发现为生成合适的问题（提示）提供指导，进而指导行动学习。

Oct, 2023

利用大型语言模型模拟人类认知过程进行专业级医学问题回答

通过模拟人类认知过程，BooksMed 使用大型语言模型（LLM）构建的框架，利用 GRADE 框架来提供基于证据的可靠答复，同时引入 ExpertMedQA 来评估 LLM 的性能，从而成为在临床决策中提供可靠和基于证据的答案的有用工具。

Oct, 2023

主动协作框架：零样本多模态医学推理的查询、交互和集成

我们提出了一个多模态医疗协作推理框架 MultiMedRes，通过学习者代理从领域特定专家模型获取必要信息来解决医疗多模态推理问题，并在 X 射线图像的区别视觉问答任务中验证了方法的有效性。

May, 2024

基于语言模型的战略规划实现专家级提示优化

PromptAgent 是一个优化方法，可以自动产生与专家级相等质量的提示，基于蒙特卡罗树搜索实现了对专家级提示的策略性规划和精确的领域洞察。

Oct, 2023

MEDIQ：用于自适应可靠医学推理的问答 LLMs

在高风险领域如医疗推理中，目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍：现有的大语言模型被训练以回答任何问题，即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式，让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架，用于模拟逼真的临床交互过程，其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息；当专家系统对决策缺乏信心时，会通过追问问题来获取患者缺失的详细信息，而不会做出诊断决策。为了评估 MEDIQ，我们将 MEDQA 和 CRAFT-MD（用于诊断问题回答的医学基准测试）转化为交互式设置。我们开发了一个可靠的患者系统，并原型化了几个专家系统，首先表明直接命令最先进的大语言模型提问会降低临床推理的质量，表明将大语言模型适应于交互式信息寻求环境是困难的。然后，我们使用新的弃权模型来改进专家系统，更好地估计模型置信度，并决定是否追问更多问题，从而将诊断准确率提高了 20.3%；然而，性能仍然落后于完整信息均提供的理论上限（在实践中不切实际）。进一步分析表明，通过过滤不相关的上下文和重新格式化对话，可以提高交互性能。总体而言，我们的论文介绍了一个关于大语言模型可靠性的新问题，一个新的 MEDIQ 框架，并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。

Jun, 2024