请教专家:利用语言模型改进目标导向对话模型中的战略推理
CarExpert 通过借助大型语言模型(LLMs)在不针对特定任务和数据进行微调的情况下,控制输入,为抽取和生成回答组件提供特定领域的文档,并控制输出,以确保生成自然、安全且针对汽车领域的答案,优于最先进的 LLMs。
Oct, 2023
大型语言模型的对齐方法主要依赖于人工标注数据,但随着模型的不断发展,人类专业知识将不再足够,将由非专家来监督专家。我们研究了一个类似情景,强大模型(专家)拥有回答问题所需的信息,而弱小模型(非专家)缺乏这些信息。我们发现辩论方法对非专家模型和人类都有帮助,相应的准确率分别为 76% 和 88%(与朴素基准分别为 48% 和 60%)。此外,以无监督方式优化专业辩手的说服力可以提高非专家模型在辩论中识别真相的能力。我们的研究结果为在没有绝对真实性的情况下,通过辩论来对齐模型提供了有益的实证证据。
Feb, 2024
该论文介绍了一种新方法,即通过多个语言模型实例的反复辩论和推理过程,以达成一个共同的最终答案,从而改善语言响应的表现,特别是在数学和策略推理方面,改善了已有模型中一些常见问题,如虚假答案和幻觉现象,并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。
May, 2023
在本文中,我们探讨了大型语言模型(LLMs)在复杂人类系统中的推理能力,并提出了一种新的推理框架 ——“Mosaic Expert Observation Wall”(MEOW),利用生成型代理模拟技术。通过模拟数据训练一个专家模型,该模型在每个独立的模拟时间中专注于某个特定任务的 “经验”,通过模拟积累的 “经验” 使其成为复杂人类系统中某个任务的专家。我们在模拟真实世界安全场景的通信游戏中进行了实验,结果表明我们提出的方法可以与现有方法协同工作,增强大型语言模型在复杂人类系统中的推理能力。
Mar, 2024
利用领导者 - 追随者双层框架,本文实现了一个完全集成的端到端框架,用于处理复杂的推理任务,并通过引入历史发现为生成合适的问题(提示)提供指导,进而指导行动学习。
Oct, 2023
通过模拟人类认知过程,BooksMed 使用大型语言模型(LLM)构建的框架,利用 GRADE 框架来提供基于证据的可靠答复,同时引入 ExpertMedQA 来评估 LLM 的性能,从而成为在临床决策中提供可靠和基于证据的答案的有用工具。
Oct, 2023
我们提出了一个多模态医疗协作推理框架 MultiMedRes,通过学习者代理从领域特定专家模型获取必要信息来解决医疗多模态推理问题,并在 X 射线图像的区别视觉问答任务中验证了方法的有效性。
May, 2024
PromptAgent 是一个优化方法,可以自动产生与专家级相等质量的提示,基于蒙特卡罗树搜索实现了对专家级提示的策略性规划和精确的领域洞察。
Oct, 2023
在高风险领域如医疗推理中,目前大语言模型的 AI 助理尚缺乏可靠性和安全性。本文提出了挑战可靠性的主要障碍:现有的大语言模型被训练以回答任何问题,即使在提问时存在不完整的上下文或不足的参数知识。我们建议通过开发更加谨慎的大语言模型来改变这种模式,让它们能够通过追问问题来收集必要和充分的信息并提供可靠的回答。我们引入了 MEDIQ 框架,用于模拟逼真的临床交互过程,其中包括患者系统和自适应专家系统。患者系统可能在开始阶段提供不完整的信息;当专家系统对决策缺乏信心时,会通过追问问题来获取患者缺失的详细信息,而不会做出诊断决策。为了评估 MEDIQ,我们将 MEDQA 和 CRAFT-MD(用于诊断问题回答的医学基准测试)转化为交互式设置。我们开发了一个可靠的患者系统,并原型化了几个专家系统,首先表明直接命令最先进的大语言模型提问会降低临床推理的质量,表明将大语言模型适应于交互式信息寻求环境是困难的。然后,我们使用新的弃权模型来改进专家系统,更好地估计模型置信度,并决定是否追问更多问题,从而将诊断准确率提高了 20.3%;然而,性能仍然落后于完整信息均提供的理论上限(在实践中不切实际)。进一步分析表明,通过过滤不相关的上下文和重新格式化对话,可以提高交互性能。总体而言,我们的论文介绍了一个关于大语言模型可靠性的新问题,一个新的 MEDIQ 框架,并强调了在关键领域扩展大语言模型助理的信息寻求能力的重要未来方向。
Jun, 2024