元认知是否就足够了？在生成式代理中使用内省来改进目标导向行为

Jan, 2024

元认知是否就足够了？在生成式代理中使用内省来改进目标导向行为

Metacognition is all you need? Using Introspection in Generative Agents to Improve Goal-directed Behavior

Jason Toy, Josh MacAdam, Phil Tabor

TL;DR介绍了一种元认知模块，使生成式智能体能够观察自己的思维过程和行为，从而显著提高性能并改进策略。在多种情景中进行了测试，包括求生僵尸启示录，发现我们的系统胜过其他系统，而且智能体随着时间适应并改进任务策略。

Abstract

Recent advances in large language models (LLMs) have shown impressive capabilities in various applications, yet LLMs face challenges such as limited context windows and difficulties in generalization. In this paper, we introduce a →

large language models metacognition module generative agents performance enhancement strategy modification

发现论文，激发创造

生成 AI 作为元认知代理的研究：关于模拟 ICF 考试表现的人类参与者的比较混合方法研究

研究了大型语言模型与人类元认知在国际教练联合会（ICF）模拟考试中的元认知能力，结果发现大型语言模型在几个元认知指标上表现优于人类，尤其是在减少自负方面，但无论是语言模型还是人类在模糊场景中都缺乏适应性，倾向于遵循预先定义的决策框架。研究结果对开发辅助掌握教练能力的人工智能模拟器以及发展朝着更自主和直观的人工智能系统的元认知模块具有重要意义。

May, 2024

计算元认知

本文介绍了计算元认知在智能系统高阶推理中的应用，并以 MIDCA 为例展示了元认知在问题解决中的价值，指出计算元认知通过目标操作和学习改变认知，从而提高了智能系统的性能。

Jan, 2022

元认知人工智能：框架与神经符号化方法的案例

元认知是关于代理自身内部过程的推理概念，在心理发展学领域首次引入。本文研究将元认知应用于人工智能的概念，提出了一个名为 TRAP 的元认知人工智能理解框架，包括透明度、推理、适应性和感知。我们逐个讨论了每个方面，并探讨了神经符号人工智能在解决元认知挑战中的应用。

Jun, 2024

教学生成智能体的认知评估：需要更好的心灵理论能力

本研究通过数学方式刻画了人类引导他人通过自然语言有效沟通所需的认知能力，并展示了基于神经网络的指导生成代理具有类似的认知能力，通过提升这些代理与听众之间的心理模型可显著提升指导质量，但是在与人类引导者的对比中还存在相当的差距，因此需构建更好的人类行为模型以更好地协同 AI 代理人。

Dec, 2022

DeepThought：自主自律系统的架构

通过将大型语言模型与深度学习系统整合，提出能够展示类似于代理、自我激励甚至一些元认知特征的认知语言代理体系结构。

Nov, 2023

元认知检索增强的大型语言模型

MetaRAG 通过将检索增强生成过程与元认知相结合，使模型能够监控、评估和规划其响应策略，提升其内省性推理能力，从而显著优于现有方法。

Feb, 2024

自省计划：引导语言能力代理改进自身的不确定性

通过引入内省计划的概念，该论文探讨了使用无需微调的系统化方法来引导大型语言模型进行感知不确定性的规划，以此改进机器人任务执行的成功率和安全性。并且研究了结合符合预测方法的内省计划的有效性，结果显示此组合可以提供更紧密的置信区间，在减少用户澄清查询的同时保持统计成功保证。

Feb, 2024

元认知强化的正向强化少样本提示

通过元认知和正反馈指导，提高大型语言模型的少样本学习，在分类准确率和宏 F1 方面超过传统的少样本提示。

Dec, 2023

自省提示：用于上下文决策的大型语言模型

本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化，从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能，却不调整 LMM 参数，结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。

May, 2023

大规模语言模型中的自我认知：一项探索性研究

研究通过构建自我认知指令提示池，评估大型语言模型的自我认知，并提出四个原则来量化模型的自我认知水平。结果显示在 Chatbot Arena 的 48 个模型中，有 4 个模型展示出可检测到的自我认知。模型规模、训练数据质量与自我认知水平之间存在正向相关关系。此外，研究还探索了自我认知状态下大型语言模型的效用和可信度，揭示了自我认知状态增强创造性写作和夸张等特定任务的能力。这项工作有望激发进一步研究大型语言模型的自我认知。

Jul, 2024