- 探索多层次的 GPT 生成的编程提示如何支持或让初学者失望
近期的研究将大型语言模型(LLMs)应用于多样的教育环境,包括提供自适应编程提示,一种专注于帮助学生在问题解决中前进的反馈类型。本研究通过使用 LLM Hint Factory 的思辨法研究,对 12 名初学者进行了研究,该系统提供四个级别 - DocMath-Eval:评估 LLMs 在理解带表格数据的长文档中的数值推理能力
该论文介绍了 DocMath-Eval,这是一个特意设计用于评估具有理解和分析既包含文本又包含表格的金融文件的 LLMs 的数值推理和问题解决能力的综合基准测试。我们评估了 19 个 LLMs 的广泛领域的表现,并采用不同的提示策略来全面评 - 从平凡到有意义:AI 对工作动态的影响 —— 来自 ChatGPT 和 Stack Overflow 的证据
生成 AI 如何改变编码的一个基本方面:问题解决。使用非试验性方法(差异法差异法),我们发现 ChatGPT 的发布显著减少了问题的数量,并且问题在发布后得到更好的记录。此外,我们发现剩下的问题更加复杂。这些发现不仅表明了生产力的提高,也表 - LatEval: 一个包含来自横向思维谜题的不完整信息的交互式 LLMs 评估基准
通过最新的评估基准 LatEval,该研究探讨了语言模型在问答提问质量和信息整合方面的潜力,发现大部分模型在运用侧向思考时存在困难,提出了具有挑战性的任务,对于开发高效 AI 助手非常关键。
- 大语言模型中发挥认知协同作用:通过多人格自我协作成为任务解决代理
本文提出了 Solo Performance Prompting(SPP)的概念,该技术通过与多个角色进行多回合自我协作将单个大语言模型转化为认知协同体,从而激发了 LLM 中潜在的认知协同作用,提高了复杂任务中的问题解决能力。
- Flacuna:利用 FLAN Fine-Tuning 释放 Vicuna 的问题解决能力
本篇技术报告的主要目的是通过利用 VICUNA 和 FLANMINI 数据集,着重调查第三个因素的影响,即通过在 FLAN 数据集上对 VICUNA 进行微调来提高问题解决能力,FLACUNA 表现明显提高多个基准数据集在 INSTRUCT - ACL通过生成问题语句的语言变体来求解数学应用题
该论文提出了一种用于解决数学问题的框架,该框架基于生成问题文本的语言变体,利用 DeBERTa 编码器构建解决方案表达式,通过对每个变体问题进行求解并选出获得大多数选票的预测表达式来改善数学推理和模型的鲁棒性。
- INSTRUCTEVAL:面向指导调整的大语言模型的全面评估
INSTRUCTEVAL 是一个全面的评估套件,旨在评估大型语言模型在指令调整下的表现,其结果表明,指令数据的质量是影响模型性能的最重要因素,并且从问题解决能力和与人类价值观的一致性方面,这些模型还有很大的提升空间。
- 大型语言模型作为工具制造者
该研究提出了一种基于大型语言模型 (LLMs) 的闭环框架 LLMs As Tool Makers (LATM),通过该框架,LLMs 可以自己创建可重用的工具以解决问题,并验证了该方法在包括 Big-Bench 任务在内的复杂推理任务中的 - 自我打磨:通过问题优化增强大型语言模型的推理能力
该研究提出了一种名为 Self-Polish 的新方法,旨在通过引导模型逐步精炼给定的问题,以提高其问题解决能力,与其他提示方法正交,有效地提高了针对不同数据集的 Few-Shot 学习和 CoT 模型的表现。
- 大型语言模型指导下的思维树
本文提出了 Tree-of-Thought (ToT) 框架,它通过试错的思路来改进自回归大语言模型的问题解决能力。通过增加提示、检查、记忆和控制等模块来实现 ToT 系统。为了验证该技术的有效性,我们基于 ToT 设计了解决数独难题的求解 - ChatLLM 网络:更多的智能,更多的大脑
本文提出 ChatLLM 网络,利用多个基于 ChatGPT 的对话语言模型协同解决问题的能力,加入了一种反向传递更新系统,展现了这个网络在问题解决方面的显著性能提升。
- 基础模型的工具学习
本文系统地介绍了工具学习在认知起源、模型学习和用户指令等方面的背景,并总结了现有的工具增强和工具导向学习研究,并提出了一个通用的工具学习框架。最后通过 17 个代表性工具的实验结果展示了基金会模型在熟练使用工具方面的潜力,同时指出了需要进一 - 自然语言推理问题中使用语言模型进行知识获取
本文通过在逻辑单词谜题上比较使用 ChatGPT 和 GPT-4 直接解决问题和提取问题文本事实并使用定理证明器解决两种方法,并得出后者是正确的方法来研究了利用大语言模型解决自然语言问题需要一些非平凡的推理。
- 分层信息网络的新兴人工智能协议
提出了一种新的基于人工智能的分层模型,用于测量人类智力中的问题解决和决策能力。该模型由 7 个不同的层级组成,可为给定问题提供最佳和可说明性的解决方案。
- 使用语言模型提示的推理:一项调查
本研究提供关于以语言模型提示为基础的推理的前沿研究的综合调查,介绍与比较了相关研究工作,并提供系统化的资源以帮助初学者,同时讨论了产生此类推理能力的潜在原因和未来的研究方向。
- 使用深度学习和树搜索学习无先验数据设计:发现可推广的设计策略
本文提出一种自学习框架,将深度策略网络与新颖的树搜索算法结合,实现了在问题空间中学习可推广的设计行为的目标。利用此框架,可以在没有先验数据、现有解决方案和问题特定学习的情况下,自学习高性能和通用解决方案。
- 智能问题解决作为集成的分层强化学习
通过综述认知心理学的文献,探讨分解抽象和预测处理等认知机制对分层机器学习的影响,并提出集成这些认知机制的方案来提升人工智能问题解决能力。
- 评估 AGI 的人工开放世界:一个概念设计
本文提出了一种名为 “人工开放世界” 的评估方法,旨在解决开发者经验陷阱问题,该方法通过创建一个人工世界,以一种类似实际世界的方式生成问题并提出度量标准来量化研究进展。
- DIAS: 一个基于人工生命的领域无关问题解决系统
介绍了一种基于人工生命原理的领域无关问题解决系统 DIAS,该系统能够解决不同种类和复杂度的问题,且不需要对新问题进行超参数调整,并能展现终身学习适应能力和比传统的非集体方法更好的问题解决能力。因此,ALife 在构建可伸缩、通用和自适应问