- GlitchBench:大型多模型能否检测视频游戏故障?
将视频游戏的质量保证任务应用于大型多模式模型,通过 GlitchBench 评估其视觉理解和推理能力的挑战。
- 阿波罗的神谕:多智能体辩论中的检索增强推理
多智能体辩论系统在对抗性交互中通过准确和一致的结论设计,然而这些系统常常面临认知限制的挑战,这表现为(1)代理的顽固坚持错误观点和(2)他们放弃正确观点的倾向。为了解决认知限制的挑战,我们引入了一种新的框架,多智能体辩论与检索增强(MADR - 与 LLMS 的谈判:迅速入门、技能差距与推理缺陷
通过观察人类与大型语言模型(LLMs)的对话,本研究基于数据驱动的方法,对 LLMs 的治理和调节进行了归纳性分析,并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外,研 - CORE-MM: 多模态大型语言模型的复杂开放式推理评估
我们手动策划了一个专为多模态大型语言模型(MLLMs)设计的基准数据集,重点关注复杂推理任务,通过评估中间推理步骤来准确测量其推理能力。
- 自动驾驶的语言代理
我们提出了一种从普通流程转变的方法,即通过引入大型语言模型作为认知代理,将人类智能融入自动驾驶系统,实现更加人性化的自动驾驶。我们的方法通过函数调用访问一个多功能工具库、具有常识和经验知识的认知记忆以进行决策制定,并且具备由思维推理、任务规 - MedAgents:大型语言模型作为零 - shot 医学推理的合作伙伴
提出了一种基于大型语言模型(LLMs)的多学科协作(MC)框架,通过角色扮演的 LLM 代理参与协作多轮讨论,增强 LLM 的能力和推理能力,用于挖掘并利用 LLMs 中的医学专业知识和扩展其推理能力,同时在人类评估中找出常见错误并进行消融 - 结构化化学推理与大型语言模型
本文研究利用大型语言模型(LLMs)解决复杂的化学问题的问题,提出了 InstructChem,一种新的结构化推理方法,极大地提升了 LLMs 的化学推理能力。
- 大型语言模型中的逻辑谜题解决评估:基于扫雷案例研究的洞察
我们的研究引入了一种新的任务 -- 扫雷,旨在测试 LLMs 在陌生格式的任务中的推理和规划能力;我们的实验证明,尽管 LLMs 具备完成该任务所需的基本能力,但它们在将这些能力整合成解决扫雷问题所需的连贯的多步骤逻辑推理过程方面存在困难。 - EMNLP利用结构化信息进行可解释的多跳问题回答和推理
构建和利用语义结构的多跳问题回答框架,通过神经模型和连续思维机制提高推理能力,并结合信息抽取和提取的语义结构实现更准确和可解释的问题回答。
- EMNLPHARE:可解释的仇恨言论检测配有逐步推理
通过使用大型语言模型 (LLM) 的推理能力填补对仇恨言论解释中的知识缺口,我们提出了一种新的仇恨言论检测框架 HARE,该方法使用模型生成数据相较于已有人工注释的基线,能够持续优于其他方法,并 verbess ustheeoub 井 un - 类阿尔法零树搜索可引导大规模语言模型的解码和训练
借鉴 AlphaZero 的树搜索框架,通过学习价值函数来引导大型语言模型(LLMs)的解码能力,并在推理和训练中进行译码指导,有效地提升推理能力、规划和强化学习任务的对齐。
- 通过定义问题测试探索大型语言模型的认知道德发展
该研究提出了一个评估框架,以心理学和人工智能为基础,帮助划定模型的伦理推理能力,评估道德一致性和科尔伯格的道德发展阶段。
- 调和:圆桌会议通过多样 LLMs 达成共识提升推理能力
通过多轮讨论、学习说服他人并采用加权投票机制,ReConcile 提出了一种多模型多智能体框架,以改进大型语言模型的推理能力,并达到更好的共识。
- 使用语言模型从数学问题中生成 Prolog 谓词
最近,ChatGPT 在 NLP 领域引起了广泛关注。ChatGPT 是一种基于 Transformer 的大规模生成式语言模型,在自然语言处理的各种任务中表现出多样性。然而,大型语言模型在解决需要推理能力的数学问题时往往表现较差。先前的研 - 何时使用思考方案进行推理?
利用结构和逻辑属性以及优化代码复杂度对大型语言模型 (LLM) 的推理能力进行评估和改进。
- GPT 循环:多智能体系统的自适应决策
通过融合 Generative Pre-trained Transformers (GPT) 这类大型语言模型的高级推理能力和 Multiagent (MAS) 系统,这篇论文介绍了一种新的方法,“GPT-in-the-loop”,用于增强 - 元认知提示提高大型语言模型的理解能力
通过使用元认知提示,通过系统性的结构化、自我意识评估,结合大量内在的知识和新的认识,可以提高大型语言模型的理解能力。实验结果表明,元认知提示始终优于现有的提示方法,并通过提高 GPT-4 的性能水平,增强了 GPT-4 在各种自然语言理解任 - Sci-CoT:利用大型语言模型增强科学问答中小模型的知识蒸馏
本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型,提出了一种名为 Sci-CoT 的两阶段框架,该框架通过分离生成推理步骤和推理答案的过程,在科学问答任务中利用推理步骤更有效地进行推理,使得 8000 万参数的模型在 ARC - RRAML: 强化检索增强机器学习
通过提出一种名为增强检索增强机器学习(RRAML)的新型框架,将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合,有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。
- PokemonChat: 对 ChatGPT 在宠物小精灵宇宙知识方面进行审计
本研究利用 "Pokemon" 这个封闭世界来探讨 ChatGPT 在对话中的理解、推理能力和知识获取能力,并测试了其识别新知识和结合多个特征等能力,并发现了模型的先验知识、出现幻觉和易受对抗性攻击等特点。